NIE 国家 软件 与 集成 电路 公共 服务 平台 信息 技术 紧缺 人 才 培养 工程 指定 教材 


R os 


数据 清洗 


CY PETT /编著 


清华 大 学 出 版 社 


大 数据 技术 与 应 用 丛书 


数据 清洗 


黑马 程序 员 编著 


清华 大 学 出 版 社 


北 京 


内 容 简 介 


数据 清洗 是 大 数据 预 处 理 的 关键 环节 。 面 对 错综复杂 的 数据 ,传统 的 清洗 “ 脏 ” 数 据 工作 单调 且 异 常 
辛苦 ,如 果 能 利用 正确 的 工具 和 方法 ,可 以 让 数据 清洗 工作 变 得 事半功倍 。 本 书 讲解 数据 清洗 的 理论 知识 
和 实际 应 用 ,全 书 共 8 章 : 第 1 章 主要 带领 大 家 简单 认识 数据 清洗 ;第 2 章 主 要 讲解 ETL 技术 相关 的 知 
识 ;第 3 章 讲解 Kettle 工具 的 基本 使 用 ;第 4 章 主 要 讲解 数据 清洗 的 第 一 步 一 数据 抽取 ;第 5 章 主 要 讲 
解数 据 清洗 与 检验 ;第 6 章 主要 讲解 数据 转换 相关 的 知识 ;第 7 章 主要 讲解 数据 加 载 相关 的 知识 ;第 8 章 利 
用 前 面 章 节 所 学 的 知识 构建 一 个 DVD 租赁 商店 数据 仓库 ,目的 是 实现 定期 从 源 数据 库 sakila 中 抽取 增 量 
数据 ,转换 成 符合 DVD 租赁 业务 的 数据 ,最 后 加 载 到 DVD 租赁 商店 数据 仓库 中 ,便于 后 续 在 线 DVD 租赁 
商店 的 决策 者 对 数据 进行 分 析 得 出 商业 决策 。 本 书 附 有 配套 视频 、 源 代码 ,习题 教学 设计 ,教学 课件 等 次 
源 。 同 时 ,为 了 帮助 初学 者 更 好 地 学 习 本 书 中 的 内 容 , 还 提供 了 在 线 答疑 ,欢迎 读者 关注 。 

本 书 可 作为 高 等 院 校本 专科 计算 机 信息 管理 等 相关 专业 的 大 数据 课程 教材 ,也 可 供 相关 技术 人 员 参 
考 , 是 一 本 适合 广大 计算 机 编程 爱好 者 的 优秀 读物 。 
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江苏 传 智 播客 教育 科技 股份 有 限 公 司 ( 简 称 “ 传 智 播客 ”) 是 一 家 致力 于 培养 高 素质 软件 
开发 人 才 的 科技 公司 。 经 过 多 年 探索 , 传 智 播客 的 战略 逐步 完善 ,从 IT 教育 培训 发 展 到 高 
等 教育 ,从 根本 上 解决 以 “人 ”为 单位 的 系统 教育 培训 问题 ,实现 新 的 系统 教育 形态 ,构建 出 
前 后 衔接 、 相 互 呼应 的 分 层次 教育 培训 模式 。 


一 、“ 黑 马 程 序 员 ”一 一 高 端 I1T 教育 品牌 


“黑马 程序 员 ” 的 学 员 多 为 大 学 毕业 后 , 想 从 事 IT 行业 ,但 各 方面 条 件 还 不 成 熟 的 年 轻 
人 。“ 黑 马 程序 员 ” 的 学 员 筛 选 制度 非常 严格 ,包括 了 严格 的 技术 测试 .自学 能 力 测试 ,以 及 
性 格 测试 .压力 测试 .品德 测试 等 。 百 里 挑 一 的 残酷 筛选 制度 确保 学 员 质 量 ,并 降低 企业 的 
用 人 风险 。 

自 “ 黑 马 程序 员 ” 成 立 以 来 ,教学 研发 团队 一 直 致 力 于 打造 精品 课程 资源 ,不 断 在 产 、 学 、 
W 3 个 层面 创新 自己 的 执教 理念 与 教学 方针 ,并 集中 “黑马 程序 员 ” 的 优势 力量 ,有 针对 性 地 
出 版 了 计算 机 系列 教材 90 多 种 ,制作 教学 视频 数 十 套 ,发 表 各 类 技术 文章 数 百 篇 。 

“黑马 程序 员 " 不 仅 斥资 研发 IT 系列 教材 ,还 为 高 校 师 生 提供 以 下 配套 学 习 资 源 与 
服务 。 


1. 为 大 学 生 提供 的 配套 服务 


(1) 请 同学 们 登录 http://yx. ityxb. com, 进 入 “高 校 学 习 平台 ”, 免 费 获 取 海 量 学 习 资 
源 。 平 台 可 以 帮助 高 校 学 生 解 决 各 类 学 习 问 题 。 

(2) 针对 高 校 学 生 在 学 习 过 程 中 存在 的 压力 大 等 问题 ,我 们 
还 面向 大 学 生 量 身 打 造 了 IT 技术 女神 一 一 播 妞 学 姐 ”, 可 提供 
教材 配套 源码 习题 答案 及 更 多 学 习 资源 。 同 学 们 快 来 关注 “ 播 [s] 
妞 学 姐 ” 的 微 信 公 众 号 boniu1024。 “ 播 妞 学 姐 ” 微 信 公 众 号 


2. 为 教师 提供 的 配套 服务 


针对 高 校 教学 “黑马 程序 员 ? 为 IT 系列 教材 精心 设计 了 “教案 十 授课 资源 十 考试 系 
统 十 题库 十 教学 辅助 案例 ”的 系列 教学 资源 。 高 校 老 师 请 登录 http://yx. ityxb. com, 进 入 
“高 校 教 辅 平台 ”, 也 可 关注 “ 码 大 牛 ” 老 师 微 信 /QQ: 2011168841 ,获取 配套 资源 ,还 可 以 扫 


描 下 方 二 维 码 ,关注 专 为 IT 教师 打造 的 师资 服务 平台 一 一 教学 好 助手 ,获取 最 新 的 教学 
辅助 资源 。 


二 、“ 传 智 专修 学 院 ” 一 一 高 等 教育 机 构 


传 智 专修 学 院 是 一 所 由 江苏 省 宿迁 市 教育 局 批准 、 江 苏 传 智 播客 教育 科技 股份 有 限 公 
司 投资 创办 的 四 年 制 应 用 型 院 校 。 学 校 致力 于 为 互联 网 、 智 能 制造 等 新 兴 行 业 培 养 高 精 尖 
科技 人 才 ,聚焦 人 工 智能 ,大 数据 ` 机 器 人 、 物 联网 等 前 沿 技术 ,开设 软件 工程 专业 ,招收 的 学 
生 入 校 后 将 接受 系统 化 培养 ,毕业 时 学 生 的 专业 水 平和 技术 能 力 可 满足 大 型 互联 网 企业 的 
用 人 要 求 。 

传 智 专修 学 院 借鉴 卡 内 基 ， 梅 隆 大 学 、 斯 坦 福 大 学 等 世界 著名 大 学 的 办 学 模式 ,采用 
“申请 入 学 ,自主 选拔 ”的 招生 方式 ,通过 深入 调研 企业 需求 ,以 校 企 合作 、 专 业 共 建 等 方式 构 
建 专业 的 课程 体系 。 传 智 专修 学 院 拥 有 顶级 的 教研 团队 、 完 善 的 班级 管理 体系 .匠人 精神 的 
现代 学 徒 制 和 敢 为 人 先 的 质保 服务 。 

传 智 专修 学 院 突出 的 办 学 特色 如 下 。 

D 立足 “高 精 尖 ”人 才 培 养 。 传 智 专修 学 院 以 国家 重大 战略 和 国际 科学 技术 前 沿 为 导 
向 ,致力 于 为 社会 培养 具有 创新 精神 和 实践 能 力 的 应 用 型 人 才 。 

(2) 项 目 式 教 学 ,培养 学 生 自主 学 习 能 力 。 传 智 专修 学 院 打 破 传统 高 校 理 论 式 教学 模 
式 ,将 项 目 实战 式 教学 模式 融入 课堂 ,通过 分 组 实战 ,模拟 企业 项 目 开 发 过 程 ,让 学 生 拥 有 真 
实 的 工作 能 力 , 并 持续 培养 学 生 的 自主 学 习 能 力 。 

G) 创新 模式 ,就 业 无 优 。 学 校 为 学 生 提 供 "一 年 工作 式 学 习 ”, 学 生 能 够 进入 企业 边 工 
作 边 学 习 。 与 此 同时 ,我们 还 提供 专业 老师 指导 学 生 参 加 企业 面试 ,并 且 开 设 了 技术 服务 窗 
口 给 学 生 解 答 工 作 中 遇 到 的 各 种 问题 ,帮助 学 生 顺 利 就 业 。 

如 果 想 了 解 传 智 专修 学 院 更 多 的 精彩 内 容 ,请 关注 微 信 公众 号 “ 传 智 专 修学 院 ”。 


传 智 专修 学 院 


传 智 播客 
2020 年 2 月 
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近年 来 ,大 数据 技术 掀起 了 计算 机 领域 的 一 个 新 浪潮 ,无 论 是 数据 挖掘 ,数据 分 析 、 数 据 
可 视 化 ,还 是 机 器 学 习 \ 人 工 智 能 ,它们 都 绕 不 开 * 数 据 ? 这 个 主题 。 从 统计 学 家 到 软件 开发 
人 员 ,再 到 图 形 设计 师 , 越 来 越 多 的 人 对 数据 科学 产生 了 兴趣 ,廉价 的 硬件 .可 靠 的 数据 处 理 
工具 和 数据 可 视 化 工具 以 及 海量 的 数据 ,这 些 资源 使 我 们 能 够 轻松 地 、 精 确 地 发 现 趋势 、 预 
测 未 来 。 

由 于 海量 数据 的 来 源 是 广泛 的 ,数据 类 型 也 是 多 而 繁杂 的 ,因此 数据 中 会 夹杂 着 不 完整 
的 ,重复 的 以 及 错误 的 数据 ,如 果 直 接 使 用 这 些 原 始 数据 ,会 严重 影响 数据 决策 的 效率 。 
此 ,对 原始 数据 进行 有 效 的 清洗 是 大 数据 分 析 和 应 用 过 程 中 的 关键 环节 。 

本 书 共 分 为 8 章 , 各 章 内 容 介绍 如 下 : 

第 1 章 主 要 是 带领 大 家 简单 认识 数据 清洗 的 背景 定义、 原理 、 基 本 流程 ,清洗 策略 以 及 
常见 的 数据 清洗 方法 。 通 过 本 章 的 学 习 , 读 者 可 以 对 数据 清洗 有 基本 的 认识 ,便于 后 续 章节 
的 学 习 。 

第 2 章 主要 讲解 ETL 技术 相关 的 知识 , 即 基于 ETL 的 数据 清洗 (ETL 的 概念 ,体系 结 
HD ETL 关键 技术 (抽取 数据 的 技术 ,数据 清洗 转换 的 技术 以 及 数据 加 载 的 技术 ) 和 ETL 
常见 工具 。 通 过 本 章 的 学 习 , 读 者 可 以 认识 ETL, 并 熟悉 ETL 的 关键 技术 和 ETL 常见 的 
工具 。 

第 3 章 主要 讲解 数据 清洗 工具 Kettle 的 相关 知识 , 即 Kettle 的 概述 .设计 原则 、 下 载 安 
装 以 及 基本 概念 和 基本 功能 。 通 过 本 章 的 学 习 , 读 者 可 以 使 用 Kettle 工具 对 ETL 数据 进 
行 相 关 处 理 ( 抽 取 、 清 洗 转换 以 及 加 载 ) 。 

第 4 章 主要 讲解 数据 清洗 的 第 一 步 一 一 数据 抽取 , 即 抽取 文本 数据 、Web 数据 以 及 数 
据 库 数据 的 相关 知识 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 抽取 各 种 形式 的 数据 并 保存 至 数据 
库 中 ,便于 后 续 对 数据 进行 相关 清洗 转换 和 分 析 。 

第 5 章 主要 讲解 数据 的 清洗 与 检验 相关 的 知识 , 即 数据 去 重 、 缺 失 值 处 理 \ 异 常 值 处 理 
以 及 数据 检验 知识 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 对 重复 数据 缺失 值 数 据 . 异 常 值 数据 
的 处 理 , 也 可 以 掌握 对 数据 进行 检验 的 操作 。 

第 6 章 主要 讲解 数据 转换 相关 的 知识 , 即 多 数据 源 合 并 、 不 一 致 数据 转换 .数据 粒度 的 
转换 .数据 的 商务 规则 计算 的 知识 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 数据 转换 操作 ,实现 将 
企业 中 的 数据 进行 规范 化 处 理 。 

第 7 章 主要 讲解 数据 加 载 相关 的 知识 , 即 数 据 的 加 载 机 制 (全 量 加 载 和 增 量 加 载 ) 和 批 
量 加 载 的 知识 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 数据 的 全 量 加 载 、 增 量 加 载 以 及 批量 加 载 的 
操作 ,实现 将 清洗 检验 、 转 换 后 的 高 质量 企业 数据 加 载 到 目标 数据 库 中 ,便于 后 续 进 行 数据 


分 析 和 数据 挖掘 。 

第 8 章 利用 前 面 章节 所 学 的 知识 构建 一 个 DVD 租赁 商店 数据 仓库 ,目的 是 实现 定期 
从 源 数 据 库 sakila 中 抽取 增 量 数据 ,转换 成 符合 DVD 租赁 业务 的 数据 ,最 后 加 载 到 DVD 
租赁 商店 数据 仓库 中 ,便于 后 续 在 线 DVD 租赁 商店 的 决策 者 对 数据 进行 分 析 得 出 商业 决 
策 。 通 过 本 章 的 学 习 , 读 者 可 以 掌握 数据 仓库 的 构建 操作 以 及 对 数据 库 中 的 数据 进行 相关 
清洗 转换 操作 。 
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学 习 目标 

(1) 了 解数 据 清 洗 的 背景 

(2) 了 解数 据 清洗 的 定义 

(3) 熟悉 数据 清洗 的 原理 

(4) 掌握 数据 清洗 的 基本 流程 

(5) 了 解 常 见 数 据 清洗 的 策略 和 方法 

近年 来 ,大 数据 技术 掀起 了 计算 机 领域 的 一 个 新 浪潮 ,无 论 是 数据 挖掘 、 数 据 分 析 、 数 据 
可 视 化 ,还 是 机 器 学 习 、 人 工 智 能 ,它们 都 绕 不 开 * 数 据 " 这 个 主题 。 从 统计 学 家 到 软件 开发 
人 员 , 再 到 图 形 设计 师 , 越 来 越 多 的 人 对 数据 科学 产生 了 兴趣 。 廉 价 的 硬件 可靠 的 数据 处 
理工 具 和 数据 可 视 化 工具 以 及 海量 的 数据 这 些 资 源 使 我 们 能 够 轻松 地 ,精确 地 发 现 趋势 预 
测 未 来 。 

由 于 海量 数据 的 来 源 是 广泛 的 ,数据 类 型 也 是 多 而 繁杂 的 ,因此 数据 中 会 夹杂 着 不 完 
整 、 重 复 以 及 错误 的 数据 ,如 果 直 接 使 用 这 些 原 始 数 据 , 会 严重 影响 数据 决策 的 准确 性 和 效 
率 。 因 此 ,对 原始 数据 进行 有 效 的 清洗 是 大 数据 分 析 和 应 用 过 程 中 的 关键 环节 。 本 章 将 针 
对 数据 清洗 的 相关 知识 进行 详细 讲解 。 


1.1 数据 清洗 的 背景 


当今 时 代 , 企 业 信 息 化 的 要 求 越 来 越 迫 切 。 对 于 企业 的 决策 者 来 说 , 正 所 谓 “ 垃 圾 进 垃圾 
出 (garbage in, garbage out)” 一 一 如 果 作 为 决策 支持 的 数据 仓库 存放 的 数据 质量 达 不 到 要 求 ， 
将 直接 导致 数据 分 析 和 数据 挖掘 不 能 产生 理想 的 结果 ,甚至 还 会 产生 错误 的 分 析 结 果 , 从 而 误 
导 决 策 。 因 此 ,我们 需要 对 数据 仓库 中 的 数据 进行 相关 清洗 操作 ,得 出 可 靠 .可 准确 反映 企业 
实际 情况 的 数据 ,用 以 支持 企业 战略 决策 。 由 此 可 见 ,数据 质量 在 企业 战略 决策 中 占据 着 重要 
的 地 位 。 本 节 将 讲解 数据 质量 概述 ,数据 质量 的 评价 指标 以 及 数据 质量 的 问题 分 类 。 


1.1.1 数据 质量 概述 


数据 质量 是 指 在 业务 环境 下 ,数据 符合 数据 消费 者 的 使 用 目的 ,能 满足 业务 场景 具体 需 
求 的 程度 。 但 是 ,在 不 同 的 业务 场景 中 ,数据 消费 者 对 数据 质量 有 各 自 不 同 的 观点 ,具体 
如 下 : 


数据 清洗 


对 于 一 个 邮件 列表 的 管理 员 来 说 ,数据 质量 与 姓名 .地 址 有 关 , 高 质量 的 数据 意味 着 
清晰 \ 准 确 ,不 存在 二 义 性 以 及 不 重复 的 邮件 传送 地 址 。 

对 于 数据 清洗 工具 销售 商 来 说 ,数据 质量 与 姓名 、 地 址 有 关 , 以 及 与 它们 的 工具 是 否 
能 够 规范 地 校 验 和 匹配 客户 记录 有 关 。 

对 于 数据 仓库 工程 师 来 说 ,数据 质量 是 将 他 们 接收 的 应 用 数据 经 过 相关 的 处 理 , 存 
储 到 表格 中 或 者 显示 到 窗口 中 。 

对 于 一 个 数据 挖掘 和 决策 支持 系统 的 使 用 者 来 说 ,数据 质量 意味 着 准确 ,无 重复 且 
和 守 合 许多 特定 要 求 的 数据 。 

从 适用 性 的 角度 看 ,数据 质量 是 一 个 相对 的 概念 (与 决策 有 关 )。 不 同 的 决策 者 对 数据 
质量 的 高 低 要 求 也 是 不 同 的 。 对 于 一 个 无 关 的 数据 ,即使 质量 很 高 ,对 决策 也 起 不 到 任何 作 
用 。 例 如 ,医院 里 病人 的 基本 信息 通常 包括 姓名 、 年 龄 .血型 .身高 ,地址 等 内 容 , 如 果 想 研究 
某 种 疾病 易 发 的 年 龄 段 ,那么 年 龄 信息 的 数据 质量 就 非常 重要 ,而 其 他 信息 (血型 .身高 .地 
址 等 ) 的 数据 质量 相对 来 说 作用 不 大 。 

数据 质量 的 显著 特点 如 下 。 

。“ 业 务 需求 ”会 随时 间 变 化 ,数据 质量 也 会 随时 间 发 生变 化 。 

° 数据 质量 可 以 借助 信息 系统 度量 ,但 独立 于 信息 系统 存在 。 

° 数据 质量 存在 于 数据 的 整个 生命 周期 , 随 着 数据 的 产生 而 产生 , 随 着 数据 的 消失 而 
消失 。 


1.1.2 数据 质量 的 评价 指标 


数据 质量 的 评价 指标 主要 包括 数据 的 准确 性 (accuracy) 完整 性 (completeness)、 简 洁 
性 (concision) 及 适用 性 (applicability) ,其 中 数据 的 准确 性 、 完 整 性 和 简洁 性 是 为 了 保证 数 
据 的 适用 性 。 下 面 针 对 数据 质量 的 主要 评价 指标 进行 详细 的 介绍 。 


1. 准确 性 


数据 的 准确 性 就 是 要 求 数据 中 的 噪声 尽 可 能 少 。 为 提高 数据 的 准确 性 , 需 对 数据 集 进 
行 降 品 处 理 。 对 于 数据 中 偏离 常规 ,分 散 的 小 样本 数据 ,一 般 可 视 为 噪声 或 异常 数据 ,可 通 
过 最 常用 的 异常 值 检测 方法 聚 类 进行 处 理 。 

2. 完整 性 

完整 性 指 的 是 数据 信息 是 否 存在 缺失 的 状况 。 数 据 缺 失 的 情况 可 能 是 整 条 数据 记录 缺 
失 , 也 可 能 是 数据 中 某 个 字段 信息 的 记录 缺失 。 不 完整 的 数据 所 能 借鉴 的 价值 会 大 大 降低 ， 
也 是 数据 质量 更 为 基础 的 一 项 评估 标准 。 

数据 质量 的 完整 性 比较 容易 评估 ,一 般 通 过 数据 统计 中 的 记录 值 和 唯一 值 进行 评估 。 
例如 ,网 站 日 志 日 访问 量 就 是 一 个 记录 值 ,平时 的 日 访问 量 在 1000 左右 ,突然 某 天 降 到 
100 ,就 需要 检查 数据 是 否 存在 缺失 了 。 

3. 简洁 性 

简洁 性 就 是 要 尽量 选择 重要 的 本 质 属性 ,并 消除 元 余 。 进 行 决策 时 ,决策 者 往往 抓 住 反 
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映 问题 的 主要 因素 ,而 不 需要 把 问题 的 细节 都 搞 得 很 清楚 。 在 数据 挖掘 时 ,特征 的 个 数 越 
多 ,产生 噪声 的 机 会 就 越 大 。 一 些 不 必要 的 属性 既 会 增 大 数据 量 ,又 会 影响 挖掘 数据 的 质 
量 。 因 此 ,选择 较 小 的 典型 特征 集 不 仅 符合 决策 者 的 心理 ,而 且 还 容易 挖掘 到 简洁 有 价值 的 
信息 。 


4. 适用 性 


适用 性 是 评价 数据 质量 的 重要 标准 。 建 立 数据 仓库 的 目的 是 进行 数据 挖掘 ,支持 决策 
分 析 ,而 在 现实 世界 中 很 难 挖掘 到 满意 的 数据 ,但 是 我 们 可 以 尽量 获取 符合 要 求 的 数据 。 数 
据 的 质量 是 否 能 满足 决策 的 需要 是 适用 性 的 关键 所 在 。 尽 管 前 面 已 经 强调 了 数据 的 准确 
性 ,完整 性 和 简洁 性 ,但 归根 结 底 是 为 了 数据 的 实际 效用 。 从 数据 的 实际 效用 上 讲 , 适 用 性 
才 是 评价 数据 质量 的 核心 准则 。 


1.1.3 数据 质量 的 问题 分 类 


数据 质量 的 问题 可 以 分 为 两 类 : 一 类 是 基于 数据 源 的 “ 脏 ” 数 据 分 类 ; 另 一 类 是 基于 清 
洗 方 式 的 “ 脏 ” 数 据 分 类 。 下 面 分 别针 对 基于 数据 源 的 “ 脏 ” 数 据 分 类 和 基于 清洗 方式 的 “ 脏 ” 
数据 分 类 进行 详细 讲解 。 


1. 基于 数据 源 的 “ 脏 ” 数 据 分 类 


通常 情况 下 ,将 数据 源 中 不 完整 重复 以 及 错误 等 有 问题 的 数据 称 为 * 脏 ”数据 。 由 于 数 
据 仓 库 的 数据 来 自 底层 数据 源 ,因此 “ 脏 ” 数 据 出 现 的 原因 与 数据 源 有 密切 的 关系 。 基 于 数 
据 源 的 “ 脏 ? 数 据 分 类 如 图 1-1 所 示 。 


“ 脏 ” 数据 
单数 据 源 多 数据 源 

模式 层 实例 层 模式 层 实例 层 

1 1 1 1 
缺少 完整 缺失 值 
HER- 拼写 错误 命名 冲突 值 的 不 同 表 
唯一 性 、 属性 依赖 冲突 | | 结构 冲突 示 重 复 记录 
属性 依 否 相似 重复 记录 | | | | 


图 1-1 基于 数据 源 的 “ 脏 " 数 据 分 类 


从 图 1-1 中 可 以 看 出 ,基于 数据 源 的 “ 脏 ? 数 据 质量 问题 可 以 分 为 两 类 , 即 单数 据 源 问题 
和 多 数据 源 问题 。 单 数据 源 问题 和 多 数据 源 问 题 的 具体 介绍 如 下 。 

1) 单数 据 源 问题 

单数 据 源 的 数据 质量 主要 取决 于 它 的 模式 对 数据 完整 性 约束 的 控制 程度 。 由 于 数据 模 
式 和 完整 性 约束 控制 了 数据 的 范围 ,如 果 单 数据 源 没有 数据 模式 ,就 会 对 进入 和 存储 的 数据 


缺乏 相应 的 限制 ,此 时 很 有 可 能 出 现 拼写 错误 的 数据 和 不 一 致 的 数据 。 

单数 据 源 的 实例 层 问题 是 由 于 数据 在 模式 层 无 法 预防 的 错误 和 不 一 致 引起 的 。 典 型 的 
单数 据 源 实 例 层 问题 包括 缺失 值 ( 即 一 些 记录 在 某 些 属性 上 没有 值 )、 拼 写 错 误 ( 即 在 数据 输 
入 时 容易 出 现 ) 、 属 性 依赖 冲突 ( 即 不 满足 属性 间 的 依赖 关系 ,如 城市 名 与 邮政 编码 不 满足 对 
应 关系 等 ) 以 及 相似 重复 记录 ( 即 由 于 数据 输入 错误 等 原因 导致 有 多 条 记录 表示 现实 世界 中 
的 同一 个 实体 ) 。 

对 于 不 同 范围 的 数据 质量 问题 ,相应 的 数据 清洗 方式 也 会 有 所 不 同 ,清楚 地 了 解 目标 数 
据 存在 的 质量 问题 是 提供 完善 的 数据 清洗 方式 的 基础 。 

2) 多 数据 源 问 题 

单数 据 源 情况 下 出 现 的 问题 在 多 数据 源 情 况 下 变 得 更 加 严重 。 每 个 数据 源 中 都 有 可 能 
包含 “ 脏 ? 数 据 , 而 且 每 个 数据 源 中 的 数据 表示 方法 都 各 自 不 同 , 还 有 可 能 出 现 数据 重复 或 巴 
盾 冲 突 。 因 为 在 很 多 情况 下 ,各 个 数据 源 都 是 为 了 满足 某 一 个 特定 需要 而 单独 设计 配置 和 
维护 ,这 很 大 程度 上 导致 数据 库 管理 系统 ,数据 模型 .模式 设计 和 实际 数据 的 异 构 性 。 

多 数据 源 中 存在 的 与 模式 相关 的 质量 问题 主要 是 名 字 冲 突 和 结构 冲突 。 名 字 冲 突 表 现 
在 同一 个 名 字 表示 不 同 的 对 象 ,或 不 同 的 名 字 表 示 同 一 个 对 象 ;结构 冲突 的 典型 表现 是 不 同 
的 数据 源 中 同一 对 象 用 不 同 的 方式 表示 。 

除 模式 相关 的 质量 问题 外 ,许多 质量 问题 只 出 现在 实例 层次 上 。 单 数据 源 中 出 现 的 各 
种 问题 都 将 以 不 同方 式 出 现在 不 同 的 数据 源 中 ,如 重复 记录 、 矛 盾 记 录 等 。 即 使 在 具有 相同 
属性 名 称 和 数据 类 型 的 情况 下 ,各 异 构 数 据 源 中 的 数据 也 可 能 有 不 同 的 表示 方式 ,或 不 同 的 
解释 在 不 同 的 数据 源 中 信息 的 聚集 程度 以 及 代表 的 时 间 点 都 有 可 能 不 同 。 


2. 基于 清洗 方式 的 “ 脏 " 数 据 分 类 


基于 数据 源 的 “ 脏 ” 数 据 分 类 方法 需要 为 每 种 类 型 的 “ 脏 ? 数 据 设计 单独 的 清洗 方式 。 从 
数据 清洗 方式 的 设计 者 角度 看 ,可 以 将 “ 脏 ” 数 据 分 为 “独立 型 “ 脏 ” 数 据 ”" 和 “依赖 型 * 脏 ” 数 
据 " 两 类 。 基 于 清洗 方式 的 “ 脏 " 数 据 分 类 如 图 1-2 所 示 。 


“M” 数据 
独立 型 “ 胜 " 数据 IRAI “ME” 数据 
所 有 模式 层 及 大 多 数 实例 层 缺少 数据 重复 数据 
| | 
合法 性 检验 : 数 均值 替换 字段 匹配 
数据 格式 一 据 专家 经 验 aii 
范围 检验 Ë 统计 分 析 排序 近 信 


图 1-2 基于 清洗 方式 的 “ 脏 ? 数 据 分 类 
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从 图 1-2 中 可 以 看 出 ,独立 型 “ 脏 ” 数 据 包括 单数 据 源 和 多 数据 源 所 有 模式 层 及 大 多 数 
实例 层 的 数据 质量 问题 ;依赖 型 * 脏 ”数据 包括 缺失 数据 和 重复 数据 等 “ 脏 ” 数 据 。 下 面 对 独 
立 型 * 脏 ”数据 和 依赖 型 * 脏 ”数据 进行 详细 讲解 。 

D 独立 型 * 脏 ”数据 

独立 型 * 脏 ”数据 可 通过 记录 或 本 身 属性 检验 出 是 否 包 含 “ 脏 ” 数 据 , 不 需要 依赖 其 他 记 
录 或 属性 检测 。 独 立 型 * 脏 ”数据 使 用 “数据 合法 性 检验 规则 ”检测 数据 字段 的 实际 内 容 , 若 
属性 值 不 符合 规则 , 则 视 为 * 脏 ”数据 ,此 时 可 调用 已 定义 的 相关 清洗 方式 ,将 其 变 为 满足 规 
则 的 数据 ,从 而 可 以 保证 数据 的 合法 性 。 

合法 性 检验 是 判断 数据 是 否 符合 给 定 标 准 的 过 程 ,判断 标准 是 用 户 根据 业务 需要 定义 
的 一 些 检 验 规则 ,该 规则 主要 检验 的 是 数据 的 格式 、 数 据 的 范围 数据 的 枚 举 清 单 以 及 数据 
的 相关 性 等 方面 ,具体 介绍 如 下 。 

。 数据 的 格式 主要 是 检验 记录 的 某 个 字段 或 字段 组 中 的 数据 是 否 符合 规范 格式 ,这 是 

针对 模式 层 的 “ 脏 ” 数 据 进行 检验 。 

。 数据 的 范围 主要 是 检查 记录 的 字段 数据 是 否 在 预期 的 范围 内 ,常用 于 检验 数字 和 有 

效 值 。 

。 数据 的 枚 举 清单 主要 是 参照 某 个 已 定义 的 清单 检验 字段 的 值 。 

。 数据 的 相关 性 主要 通过 主键 和 外 键 的 关系 实现 。 

综 上 所 述 ,数据 的 合法 性 检验 是 一 个 非常 耗 时 的 环节 ,但 也 是 一 个 必 不 可 少 的 环节 , 因 
此 ,该 环节 应 高 度 自动 化 。 在 设计 清洗 程序 时 ,应 该 内 置 较 多 的 检验 函数 和 环节 ,这 样 可 以 
减少 用 户 定制 数据 合法 性 检验 规则 的 工作 量 。 

数据 转换 是 将 * 脏 ”数据 进行 清洗 的 过 程 , 包 括 模式 转换 和 实例 转换 。 其 中 ,模式 转换 用 
来 解决 模式 层 “ 脏 ”数据 的 问题 ,通过 在 元 数据 库 中 定义 表 字段 的 映射 规则 、 字 有 段 拆 分 规则 以 
及 字段 值 合 并 规则 等 协调 数据 模式 之 间 的 差异 ,从 而 实现 数据 的 清洗 ;实例 转换 是 根据 源 数 
据 字段 的 实际 内 容 ,结合 一 定 的 领域 知识 解决 拼写 错误 ,输入 错误 ,不 同 的 计量 单位 及 过 时 
的 编码 等 实例 层 “ 脏 ”数据 问题 。 

2) 依赖 型 * 脏 "数据 

依赖 型 * 脏 ”数据 主要 包括 缺失 数据 和 重复 数据 等 “ 脏 ” 数 据 。 由 于 需要 综合 考虑 与 其 他 
记录 间 的 关联 ,依赖 型 * 脏 ”数据 的 处 理 很 难 有 通用 的 方法 。 一 般 地 ,针对 特定 类 型 的 * 脏 ” 数 
据 设 计 特定 的 清洗 方式 。 

(1) 缺失 数据 。 

缺失 数据 主要 包括 数据 空 值 和 数据 异常 ,具体 介绍 如 下 。 

数据 空 值 一 共有 两 种 情况 , 即 缺 失 值 和 空 值 。 其 中 ,缺失 值 是 指 值 实际 存在 ,但 没有 存 
人 值 所 属 字 段 中 ,如 成 年 人 都 有 身份 证 , 若 某 个 成 年 人 的 身份 证 号 属性 值 为 空 ,就 属于 缺失 
值 ; 空 值 是 指 因 实际 并 不 存在 而 空缺 的 值 , 如 动物 没有 身份 证 ,因此 它们 的 身份 证 号 属性 
为 空 。 

数据 异常 指 的 是 用 统计 分 析 的 方法 识别 出 异常 值 。 计 算 某 个 字段 的 平均 值 、 众 数 、 中 位 
数 以 及 最 大 值 .最 小 值 等 ,可 根据 这 些 统计 的 值 和 相关 的 规则 发 现 数据 中 的 异常 。 

(2) 重复 数据 。 

重复 数据 是 指 一 个 现实 实体 在 数据 集合 中 以 多 个 不 完全 相同 的 记录 表示 。 检 测 重复 数 


据 的 方法 有 很 多 ,例如 基本 的 字段 匹配 .递归 的 字段 匹配 .Smith-Waterman 算法 以 及 基于 
编辑 距离 的 字段 匹配 等 方法 。 


1.2 数据 清洗 的 定义 


数据 清洗 技术 是 提高 数据 质量 的 有 效 方法 。 这 项 技术 是 一 个 较 新 的 研究 领域 ,对 大 数 
据 集 的 清洗 工作 需要 花费 很 长 的 时 间 。 由 于 不 同 的 应 用 领域 对 数据 清洗 有 不 同 的 解释 , 因 
此 数据 清洗 直到 现在 都 没有 一 个 公认 ,统一 的 定义 。 数 据 清洗 主要 应 用 于 3 个 领域 , 即 数据 
仓库 领域 .数据 挖掘 领域 以 及 数据 质量 管理 领域 。 

在 数据 仓库 领域 中 , 当 多 个 数据 库 合 并 时 或 多 个 数据 源 进 行 集成 时 ,都 需要 进行 数据 清 
洗 。 例 如 , 当 同 一 个 实体 的 记录 在 不 同 数据 源 中 以 不 同 的 表示 格式 或 错误 表示 的 情况 下 , 合 
并 后 的 数据 仓库 中 就 会 出 现 重复 的 记录 ,数据 清洗 的 程序 就 需要 识别 出 重复 的 记录 并 消除 
重复 的 记录 ,也 就 是 所 谓 的 数据 合并 或 清除 (Merge/Purge) 问 题 。 在 数据 仓库 环境 中 ,数据 
清洗 主要 包括 数据 的 清洗 和 结构 的 转换 两 个 过 程 。 

在 数据 挖掘 领域 中 ,数据 清洗 是 数据 进行 预 处 理 过 程 的 第 一 个 步 又。 在 数据 预 处 理应 
用 中 ,数据 清洗 的 主要 任务 是 提高 数据 的 可 用 性 , 即 去 除 噪声 .无关 数 据 以 及 空 值 等 ,并 考虑 
数据 的 动态 变化 。 在 字符 分 类 问题 中 ,通过 使 用 机 器 学 习 的 技术 进行 数据 清洗 ,即使 用 特定 
算法 检测 数据 库 对 缺失 和 错误 的 数据 予以 修改 。 

在 数据 质量 管理 领域 中 ,数据 质量 管理 是 一 个 学 术 界 和 商业 界 都 感 兴趣 的 领域 。 数 据 
质量 管理 主要 用 于 解决 信息 系统 中 的 数据 质量 及 集成 问题 。 在 该 领域 中 ,数据 清洗 从 数据 
质量 的 角度 出 发 ,把 数据 清洗 过 程 和 数据 生命 周期 集成 在 一 起 ,对 数据 的 正确 性 进行 检查 并 
提高 数据 质量 。 


1.3 数据 清洗 的 原理 
数据 清洗 是 利用 相关 技术 将 * 肚 "数据 转换 为 满足 质量 要 求 的 数据 。 下 面 通过 一 张 图 措 
述 数据 清洗 的 原理 ,具体 如 图 1-3 所 示 。 
同一 值 的 不 同 表示 


£ 
“ 脏 " 数据 


拼写 错误 一 一 
不 同 的 命名 习惯 一 一 


| 不 合法 的 值 
-一 =á 


重复 记录 的 清洗 — 数据 清洗 的 策略 、 规 则 —— 属性 的 清洗 


满足 数据 质量 要 求 的 数据 


图 1-3 数据 清洗 的 原理 


从 图 1-3 中 可 以 看 出 ,同一 值 的 不 同 表示 、 拼 写 错误 不 同 的 命名 习惯 ,不 合法 的 值 以 及 
空 值 都 会 导致 “ 脏 ” 数 据 出 现 , 通 过 定义 好 的 数据 清洗 策略 和 清洗 规则 ( 即 数 理 统计 技术 、 数 
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据 挖掘 技术 等 清洗 策略 ) 对 * 脏 ”数据 进行 清洗 ,得 到 满足 数据 质量 要 求 的 数据 。 
需要 注意 的 是 ,数据 清洗 的 目的 是 解决 “ 脏 ? 数 据 问题 , 即 不 是 将 * 脏 ?数据 洗 掉 , 而 是 将 
“ 脏 ” 数 据 洗 和 干净。 干净 的 数据 指 的 是 满足 质量 要 求 的 数据 。 


1.4 数据 清洗 的 基本 流程 


数据 清洗 的 基本 流程 一 共 分 为 5 个 步骤 ,分 别 是 数据 分 析 、 定 义 数据 清洗 的 策略 和 规 
则 ,搜寻 并 确定 错误 实例 、 纠 正 发 现 的 错误 以 及 干净 数据 回 
流 。 下 面 通过 一 张 图 描述 数据 清洗 的 基本 流程 ,具体 如 图 1-4 C 
所 示 。 1 
接 下 来 针对 图 1-4 中 数据 清洗 的 基本 流程 进行 详细 数据 分 析 
讲解 。 


1. 数据 分 析 


1 
数据 分 析 是 数据 清洗 的 前 提 和 基础 ,通过 人 工 检 测 或 者 搜寻 并 确定 错误 实例 
计算 机 分 析 程 序 的 方式 对 原始 数据 源 的 数据 进行 检测 分 析 ， | 
从 而 得 出 原始 数据 源 中 存在 的 数据 质量 问题 。 纠正 发 现 的 错误 


2. 定义 数据 清洗 的 策略 和 规则 1 
干净 数据 回流 
根据 数据 分 析出 的 数据 源 个 数 和 数据 源 中 的 “ 脏 ” 数 据 程 


度 定义 数据 清洗 策略 和 规则 ,并 选择 合适 的 数据 清洗 算法 。 


3. 搜寻 并 确定 错误 实例 图 1-4 数据 清洗 的 基本 流程 


搜寻 并 确定 错误 实例 步骤 包括 自动 检测 属性 错误 和 检测 重复 记录 的 算法 。 

手工 检测 数据 集中 的 属性 错误 需要 花费 大 量 的 时 间 、 精 力 以 及 物力 ,并 且 该 过 程 本 身 很 
容易 出 错 , 所 以 需要 使 用 高 效 的 方法 自动 检测 数据 集中 的 属性 错误 ,主要 检测 方法 有 基于 统 
计 的 方法 、 聚 类 方法 和 关联 规则 方法 。 

检测 重复 记录 的 算法 可 以 对 两 个 数据 集 或 者 一 个 合并 后 的 数据 集 进 行 检 测 ,从 而 确定 
同一 个 现实 实体 的 重复 记录 , 即 匹配 过 程 。 检 测 重复 记录 的 算法 有 基本 的 字段 匹配 算法 、 递 
归 字 段 匹配 算法 等 。 


4. 纠正 发 现 的 错误 


根据 不 同 的 “ 脏 ” 数 据 存在 形式 的 不 同 ,执行 相应 的 数据 清洗 和 转换 步骤 解决 原始 数据 
源 中 存在 的 质量 问题 。 需 要 注意 的 是 ,对 原始 数据 源 进行 数据 清洗 时 ,应 该 将 原始 数据 源 进 
行 备份 ,以 防 需 要 撤销 清洗 操作 。 

为 了 便于 处 理 单数 据 源 、 多 数据 源 以 及 单数 据 源 与 其 他 数据 源 合并 的 数据 质量 问题 ,一 
般 需 要 在 各 个 数据 源 上 进行 数据 转换 操作 ,具体 如 下 。 

(1) 从 原始 数据 源 的 属性 字段 中 抽取 值 ( 属 性 分 离 ) 。 

原始 数据 源 的 属性 一 般 包 含 很 多 信息 ,这 些 信息 有 时 需要 细 化 成 多 个 属性 ,便于 后 续 清 


1 
定义 数据 清洗 的 策略 和 规则 


洗 重复 记录 。 

(2) 确认 并 改正 。 

确认 并 改正 输入 和 拼写 的 错误 ,然后 尽 可 能 地 使 该 步骤 自动 化 。 若 是 基于 字典 查询 拼 
写 错误 , 则 更 利于 发 现 拼写 的 错误 。 

(3) 标准 化 。 

为 了 便于 记录 实例 匹配 和 合并 ,应 该 将 属性 值 转换 成 统一 格式 。 


5. 干净 数据 回流 


当 数 据 被 清洗 后 ,干净 的 数据 蔡 代 原始 数据 源 中 的 “ 脏 ” 数 据 ,这 样 可 以 提高 信息 系统 的 
数据 质量 ,还 可 避免 将 来 再 次 抽取 数据 后 进行 重复 的 清洗 工作 。 


1.5 数据 清洗 的 策略 


在 数据 仓库 环境 中 ,数据 清洗 可 以 在 不 同 阶段 实现 ,并 且 存 在 不 同 的 清洗 策略 ,目前 数 
据 清洗 的 策略 主要 分 为 一 般 的 数据 清洗 策略 和 混合 的 数据 清洗 策略 。 下 面 针 对 数据 清洗 的 
两 种 策略 进行 讲解 。 


1. 一 般 的 数据 清洗 策略 


按照 数据 清洗 的 实现 方式 与 范围 划分 ,一 般 分 为 手工 清洗 策略 .自动 清洗 策略 .特定 应 
用 领域 的 清洗 策略 以 及 与 特定 应 用 领域 无 关 的 清洗 策略 ,这 4 种 清洗 策略 的 具体 介绍 如 下 。 

° 手工 清洗 策略 , 即 通过 人 工 直接 修改 “ 脏 ? 数 据 。 

。 自动 清洗 策略 , 即 通过 编写 专门 的 应 用 程序 检测 并 修改 “ 脏 ? 数 据 。 

。 特定 应 用 领域 的 清洗 策略 , 即 根据 概率 统计 学 原理 检测 并 修改 数值 异常 的 记录 。 

。 与 特定 应 用 领域 无 关 的 清洗 策略 , 即 根据 相关 算法 检测 并 删除 重复 记录 。 


2. 混合 的 数据 清洗 策略 


混合 的 数据 清洗 策略 主要 以 自动 清洗 为 主 。 在 数据 仓库 的 数据 初次 装载 阶段 和 增 量 装 
载 阶段 ,可 以 通过 编写 应 用 程序 实现 批量 数据 的 自动 清洗 ,但 该 清洗 策略 并 不 能 完全 涵盖 所 
有 的 错误 类 型 。 若 无 法 按照 已 有 策略 识别 某 些 错误 类 型 ,修改 数据 的 工作 就 需要 人 工 监督 
和 确认 ,这 时 系统 会 设 定 异 常 报警 功能 ,通过 用 户 自身 对 错误 的 识别 、 理 解 和 确认 ,最终 实 现 
数据 清洗 。 


1.6 常见 的 数据 清洗 方法 


常见 的 数据 质量 问题 主要 包括 缺失 值 、 重 复 值 以 及 错误 值 等 问题 。 下 面 针 对 缺失 值 的 
清洗 、 重 复 值 的 清洗 以 及 错误 值 的 清洗 进行 讲解 。 

1. 缺失 值 的 清洗 

缺失 值 的 清洗 方法 主要 分 为 两 类 , 即 忽略 缺失 值 数 据 和 填充 缺失 值 数据 。 
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(1) 忽略 缺失 值 数 据 方法 是 直接 通过 删除 属性 或 实例 忽略 缺失 值 的 数据 。 

(2) 填充 缺失 值 数 据 方法 是 使 用 最 接近 缺失 值 的 值 蔡 代 缺失 的 值 , 包 括 人 工 填写 缺失 
值 ,使 用 一 个 全 局 常量 填充 空缺 值 (即将 缺失 的 值 用 同一 个 常量 Unknown 蔡 换 ) 以 及 使 用 
属性 的 平均 值 .中 间 值 .最 大 (小 ) 值 填充 缺失 值 ,或 使 用 最 可 能 的 值 ( 即 通 过 回归 、 贝 叶 斯 形 
式 化 方法 的 工具 或 决策 树 归 纳 确定 的 值 ) 填 充 缺 失 值 。 


2. 重复 值 的 清洗 


目前 清洗 重复 值 的 基本 思想 是 “排序 和 合并 ”。 清 洗 重复 值 的 方法 主要 有 相似 度 计算 和 
基于 基本 近邻 排序 算法 等 方法 。 

(1) 相似 度 计 算是 通过 计算 记录 的 个 别 属性 的 相似 度 , 然 后 考虑 每 个 属性 的 不 同 权重 
值 ,进行 加 权 平均 后 得 到 记录 的 相似 度 , 若 两 个 记录 相似 度 超过 某 一 个 阅 值 , 则 认为 两 条 记 
录 匹 配 ,否则 认为 这 两 条 记录 指向 不 同 的 实体 。 

(2) 基于 基本 近邻 排序 算法 的 核心 思想 是 为 了 减少 记录 的 比较 次 数 , 在 按 关 键 字 排序 
后 的 数据 集 上 移动 一 个 大 小 固定 的 窗口 ,通过 检测 窗口 内 的 记录 判定 它们 是 否 相似 ,从 而 确 
定 并 处 理 重复 记录 。 


3. 错误 值 的 清洗 


错误 值 的 清洗 方法 主要 包括 使 用 统计 分 析 的 方法 识别 可 能 的 错误 值 (如 偏差 分 析 ,识别 
不 遵守 分 布 或 回归 方程 的 值 ) 、 使 用 简单 规则 库 ( 即 常识 性 规则 、 业 务 特 定 规则 等 ) 检 测 出 错 
误 值 ,使 用 不 同属 性 间 的 约束 以 及 使 用 外 部 的 数据 等 方法 检测 和 处 理 错误 值 。 


1.7 本 章 小 结 


本 章 主要 讲解 了 数据 预 处 理 的 相关 知识 ,包括 数据 质量 概述 数据 质量 的 评价 指标 、 数 
据 质量 的 问题 分 类 以 及 数据 清洗 的 定义 ,数据 清洗 的 原理 、 数 据 清 洗 的 基本 流程 、 数 据 清洗 
的 策略 和 常见 的 数据 清洗 方法 ,希望 读者 通过 本 章 的 学 习 , 可 以 对 数据 预 处 理 有 基本 的 认 
识 , 便 于 后 续 章 节 的 学 习 。 


1.8 本 章 习 题 
一 、 填空 题 
1. 对 原始 数据 进行 有 效 的 是 大 数据 分 析 和 应 用 过 程 中 的 关键 环节 。 
2. 数据 质量 的 评价 指标 有 准确 性 \ 简 洁 性 、 
3. 数据 质量 的 问题 可 以 分 为 两 类 ,分 别 是 和 基于 清洗 方式 的 “ 脏 ” 数 据 分 类 。 
4. 技术 是 提高 数据 质量 的 有 效 方法 。 
5. 常见 的 数据 质量 问题 主要 包括 缺失 值 、 以 及 错误 值 等 问题 。 
二 、 判断 题 


1. 直接 使 用 原始 数据 不 会 影响 数据 决策 的 准确 性 和 效率 。 € ) 


2. 从 数据 清洗 方式 的 设计 者 角度 看 ,可 以 将 * 脏 ?数据 分 为 “独立 型 “ 脏 数据 ?和 “依赖 
型 “ 脏 ’ 数 据 ” 两 类 。 ( ) 
3. 依赖 型 “ 脏 ” 数 据 主 要 包括 缺失 数据 和 拼写 错误 数据 等 “ 脏 ? 数 据 。 ( 3 
4. 数据 清洗 的 目的 是 要 将 * 脏 ?数据 洗 掉 。 ( ) 
5. 基于 数据 源 的 “ 脏 ? 数 据 分 类 的 数据 质量 问题 可 以 分 为 单数 据 源 问 题 和 多 数据 源 
问题 。 ( ) 


三 、 选 择 题 
1. 下 列 选项 中 ， 是 评价 数据 质量 的 核心 准则 。 

A. 完整 性 B. 准确 性 C. 适用 性 D. 简洁 性 
2. 下 列 策略 中 ， 策略 属于 一 般 的 数据 清洗 策略 。 

A. 手工 清洗 B. 自动 清洗 

C. 特定 应 用 领域 D. 与 特定 应 用 领域 无 关 


3. 下 列 说 法 中 ,关于 清洗 重复 值 的 说 法 正确 的 是 
A. 清洗 重复 值 的 基本 思想 是 “分 而 合 之 ” 
B. 清洗 重复 值 的 基本 思想 是 “排序 ” 
C. 清洗 重复 值 的 基本 思想 是 “排序 和 合并 ” 
D. 清洗 重复 值 的 基本 思想 是 “合并 ” 


四 、 简 答题 
简 述 数据 清洗 的 基本 流程 。 
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学 习 目标 

(1) 了 解 ETL 的 概念 
(2) 理解 ETL 的 体系 结构 
(3) WA ETL 的 关键 技术 
(4) 掌握 ETL 的 常见 工具 


对 于 企业 来 说 ,数据 已 经 成 为 一 种 重要 的 战略 资源 ,为 了 充分 利用 好 自己 的 数据 资源 ， 
使 用 ETL 技术 进行 数据 分 析 已 成 为 企业 决策 的 重要 工作 内 容 之 一 。ETL 是 将 业务 系统 的 
数据 经 过 抽取 清洗 转换 之 后 加 载 到 数据 仓库 的 过 程 , 目 的 是 将 企业 中 的 不 完整 数据 ,重复 
数据 以 及 错误 数据 等 “ 脏 ” 数 据 内 容 通 过 清洗 转换 操作 转变 为 符合 企业 要 求 的 数据 ,便于 为 
企业 的 决策 提供 分 析 依 据 。 本 章 将 针对 ETL 的 相关 知识 进行 详细 讲解 。 


2.1 基于 ETL 的 数据 清洗 


企业 每 年 产生 海量 的 数据 ,如 何 从 海量 数据 中 挖掘 有 价值 的 数据 成 为 大 数据 研究 的 一 
个 重点 。 基 于 ETL 的 数据 清洗 是 挖掘 有 价值 数据 的 一 种 方案 , 接 下 来 本 节 将 针对 ETL 的 
概念 ,体系 结构 和 设计 进行 讲解 。 


2.1.1 ETL 的 概念 


ETL 是 英文 Extract-Transform-Load 的 缩写 ,用 来 描述 将 数据 从 源 端 经 过 抽取 
(extract) ,转换 (transform) ,加 载 (load) 至 目的 端的 过 程 . 它 能 够 对 各 种 分 布 的 、 异 构 的 源 数 
据 ( 如 关系 数据 ) 进 行 抽 取 , 按 照 预先 设计 的 规则 将 不 完整 数据 、 重 复数 据 以 及 错误 数据 等 
“ 脏 ” 数 据 内 容 进 行 清洗 ,得 到 符合 要 求 的 “干净 "数据 ,并 加 载 到 数据 仓库 中 进行 存储 ,这 些 
干净 ”数据 就 成 为 了 数据 分 析 ,数据 挖掘 的 基石 。 

ETL 是 实现 商务 智能 (Business Intelligence, BI) 的 核心 。 一 般 情况 下 ,ETL 会 花费 整 
个 BI 项 目 三 分 之 一 的 时 间 , 因 此 ETL 设计 得 好 坏 直 接 影响 BI 项 目的 成 败 。 

企业 中 常用 的 ETL 实现 有 多 种 方式 ,常见 的 方式 如 下 。 

(1) 借助 ETL 工具 (如 Pentaho Kettle、Informatic 等 ) 。 

(2) 编写 SQL 语句 。 

(3) 将 ETL 工具 和 SQL 语句 结合 起 来 使 用 。 
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ER 3 种 实现 方式 各 有 利弊 ,其 中 第 1 种 方式 可 以 快速 建立 ETL 工程 ,屏蔽 复杂 的 编 
码 任务 .加快 速度 和 降低 难度 ,但 是 缺少 灵活 性 ;第 2 种 方式 使 用 编写 SQL 语句 的 方式 优点 
是 灵活 ,可 以 提高 ETL 的 运行 效率 ,但 是 编码 复杂 ,对 技术 要 求 比 较 高 ;第 3 种 方式 综合 了 
前 面 两 种 方法 的 优点 ,可 以 极 大 地 提高 ETL 的 开发 速度 和 效率 。 


2.1.2 ETL 的 体系 结构 


ETL 主要 是 用 来 实现 异 构 数 据 源 数据 集成 的 。 多 种 数据 源 的 所 有 原始 数据 大 部 分 未 
作 修 改 就 被 载 人 ETL, 因 而 ,无 论 数 据 源 在 关系 型 数据 库 、 非 关系 型 数据 库 , 还 是 在 外 部 文 
件 , 集 成 后 的 数据 都 将 被 置 于 数据 库 的 数据 表 或 数据 仓库 的 维度 表 中 ,以 便 在 数据 库 内 或 数 
据 仓库 中 作 进 一 步 转换 (因此 ,一 般 会 将 最 终 的 数据 存储 到 数据 库 或 者 数据 仓库 中 )。ETL 
的 体系 结构 如 图 2-1 所 示 。 


人 转换 (清洗) 


数据 源 1 抽取 


Dm 


中 间 数 据 库 
数据 源 2 
SS ii 
| 


图 2-1 ETL 的 体系 结构 


在 图 2-1 中 ,车 数据 源 1 和 数据 源 2 均 为 功能 较 强大 的 DBMS( 数 据 库 管理 系统 ), 则 可 
以 使 用 SQL 语句 完成 一 部 分 数据 清洗 工作 。 但 是 ,如 果 数 据 源 为 外 部 文件 ,就 无 法 使 用 
SQL 语句 进行 数据 清洗 工作 了 ,只 能 直接 从 数据 源 中 抽取 出 来 ,然后 在 数据 转换 的 时 候 进 
行 数据 清洗 的 工作 。 因 此 ,数据 仓库 中 的 数据 清洗 工作 主要 还 是 在 数据 转换 的 时 候 进 行 。 
清洗 好 的 数据 将 保存 到 目标 数据 库 中 ,用 于 后 续 的 数据 分 析 、 数 据 挖掘 以 及 商业 智能 。 


2.2 ETL 关键 技术 


ETL 关键 技术 一 共有 3 个 ,分别 是 数据 的 抽取 数据 的 清洗 转换 以 及 数据 的 加 载 。 本 
节 针 对 数据 的 抽取 ,数据 的 清洗 转换 ,数据 的 加 载 进行 详细 介绍 。 


2.2.1 数据 的 抽取 


数据 的 抽取 就 是 从 异 构 数据 源 抽取 数据 ,但 是 并 不 是 所 有 数据 源 中 的 数据 都 有 实际 的 
价值 。 业 务 人 员 和 设计 人 员 需 要 分 析 讨论 哪些 数据 有 价值 ,哪些 数据 可 以 忽略 ,然后 制定 抽 
取 策 略 。 数 据 的 抽取 分 为 数据 的 全 量 抽取 和 数据 的 增 量 抽取 。 其 中 ,全 量 抽取 类 似 于 数据 
迁移 或 数据 复制 , 它 将 原 数 据 表 中 的 数据 全 部 抽取 出 来 ;经 过 上 次 抽取 后 , 源 数 据 表 中 的 数 
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据 出 现 变 化 时 ,会 进行 增 量 抽取 。 增 量 抽取 是 抽取 数据 源 表 中 新 增 或 被 修改 的 数据 。 

在 ETL 的 使 用 过 程 中 ,数据 的 增 量 抽取 比 数据 的 全 量 抽取 应 用 更 广泛 。 要 实现 增 量 抽 
取 , 就 要 准确 地 捕获 到 数据 库 中 数据 源 表 数据 的 变化 ,因此 捕获 变化 的 数据 是 增 量 抽取 的 关 
键 。 数 据 的 增 量 抽取 有 4 种 方式 ,具体 如 下 。 


1. 触发 器 方式 


触发 器 方式 是 根据 抽取 要 求 ,在 要 被 抽取 的 数据 源 表 上 建立 插入 、 修 改 、 删 除 3 个 触发 
器 ,每 当 数 据 源 表 中 的 数据 发 生变 化 ,就 被 相应 的 触发 器 将 变化 的 数据 写 和 人 一 个 增 量 日 志 
中 。ETL 的 增 量 抽取 则 是 从 增 量 日 志 中 抽取 ,而 不 是 直接 在 源 表 中 抽取 数据 ,同时 , 增 量 日 
志 表 中 抽取 过 的 数据 要 及 时 被 标记 或 者 删除 。 


2. HARAR 


时 间 戳 方式 是 指 增 量 抽取 时 ,抽取 进程 通过 比较 指定 抽取 时 间 与 抽取 源 表 的 时 间 惟 
字段 的 值 决定 抽取 哪些 数据 。 这 种 方式 需要 在 源 表 中 增加 一 个 时 间 戳 字段 ,系统 中 更 新 
或 修改 源 表 数 据 的 时 候 , 也 会 同时 修改 时 间 惟 字段 的 值 。 插 入 数据 的 时 间 改 由 系统 时 间 
指定 。 


3. 全 表 比 对 方式 


全 表 比 对 方式 是 指 在 增 量 抽取 时 ,ETL 进程 逐条 比较 源 表 和 目标 表 的 记录 ,将 新 增 或 
修改 等 变化 的 记录 过 滤 读 取出 来 。 


4. 日 志 表 方式 


对 于 建立 了 业务 系统 的 生产 数据 库 的 企业 来 说 ,可 以 在 数据 库 中 创建 业务 (企业 中 的 业 
务 ) 日 志 表 , 当 特 定 需要 监控 的 业务 数据 发 生变 化 时 ,由 相应 的 业务 系统 程序 模块 更 新 维护 
日 志 表 的 内 容 。 增 量 抽取 时 ,通过 读 日 志 表 数 据 决定 加 载 哪些 数据 及 如 何 加 载 。 日 志 表 的 
维护 需要 由 业务 系统 程序 编写 代码 完成 。 

以 上 4 种 常见 的 增 量 抽取 方式 没有 一 种 方式 具有 绝对 的 优势 ,不 同 的 方式 在 不 同 企业 
中 的 表现 大 体 都 是 相对 平衡 的 。 通 常 根据 企业 中 的 业务 需求 和 硬件 环境 选择 ETL 抽取 
机 制 。 


2.2.2 数据 的 清洗 转换 


数据 的 清洗 转换 是 指 将 抽取 到 的 数据 源 表 中 的 数据 ,根据 数据 仓库 系统 模型 的 要 求 进 
行 数据 的 清洗 ,转换 等 操作 ,保证 来 自 不 同系 统 、 不 同 格式 数 据 的 一 致 性 和 完整 性 ,并 且 要 按 
照 业务 要 求 加 载 到 目标 表 。 数 据 的 清洗 转换 是 ETL 中 最 复杂 的 部 分 ,主要 任务 是 过 滤 掉 不 
符合 要 求 的 数据 。 不 符合 要 求 的 数据 主要 是 有 不 完整 的 数据 错误 的 数据 ,重复 的 数据 三 大 
类 。 下 面 针对 不 符合 要 求 的 三 大 类 数据 进行 详细 介绍 。 


1. 不 完整 的 数据 
数据 上 报 ,接口 调用 时 都 会 产生 大 量 的 不 完整 数据 ,不 完整 数据 的 产生 是 不 可 避免 的 现 
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象 ,而 不 完整 的 数据 对 大 数据 环境 下 的 决策 具有 一 定 的 影响 。 不 完整 数据 主要 包括 缺失 部 
分 信息 的 数据 。 检 测 不 完整 数据 的 方法 具体 如 下 。 
缺失 部 分 或 全 部 内 容 的 数据 主要 是 采用 计算 机 和 人 工 相 结合 的 方法 进行 查找 ,并 对 缺 
失 的 内 容 进行 填充 处 理 。 不 完整 数据 的 清洗 流程 如 图 2-2 所 示 。 
【开始 -一 | 不 完整 数据 的 检测 一 一 | 不 完整 数据 的 处 理 一 (结束 ) 
图 2-2 不 完整 数据 的 清洗 流程 


在 图 2-2 中 ,不 完整 数据 的 清洗 流程 主要 分 为 3 个 步骤 ,具体 如 下 。 

(1) 对 获得 的 数据 源 进行 不 完整 数据 的 检测 ,为 后 续 的 数据 处 理 提供 所 需 的 数据 。 
(2) 对 检测 出 来 的 不 完整 数据 进行 处 理 , 如 修复 缺失 部 分 或 全 部 内 容 的 数据 。 

(3) 输出 处 理 后 的 符合 要 求 的 完整 数据 。 


2. 错误 的 数据 


大 数据 环境 下 数据 量 的 剧 增 使 得 获取 到 的 数据 源 会 由 于 各 种 原因 存在 大 量 的 错误 
数据 。 

错误 数据 产生 的 原因 是 业务 系统 不 够 健全 ,在 接收 输入 数据 后 没有 进行 过 滤 判断 ,而 是 
直接 将 数据 写 人 后 台数 据 库 造成 的 ,如 数值 数据 输 成 全 角 数 字 字 符 ,字符 串 数据 后 面 出 现 一 
个 回 车 操作 .日 期 格式 不 正确 .日 期 越界 等 错误 。 错 误 数据 的 清洗 流程 如 图 2-3 所 示 。 


【开始 厂 一 | 数据 预 处 理 L 错误 检测 e| 错误 修改 LL 结束 ] 
图 2-3 错误 数据 的 清洗 流程 


在 图 2-3 中 ,错误 数据 的 清洗 流程 主要 分 为 3 个 步骤 ,具体 如 下 。 

(1) 将 数据 源 按照 规定 的 数据 格式 进行 检测 ,并 执行 数据 预 处 理 ,为 后 续 的 处 理 步 骤 做 
准备 。 

(2) 对 预 处 理 后 的 数据 进行 一 致 性 检测 ,如 果 预 处 理 后 的 数据 与 原始 数据 存在 完整 性 
不 一 致 的 问题 , 则 通过 数据 修改 过 程 使 数据 统一 。 为 避免 再 次 出 现 该 问题 ,应 重复 进行 检测 
与 修改 过 程 ,直到 符合 要 求 为 止 。 

(3) 输出 修改 后 的 数据 。 


3. 重复 的 数据 


产生 重复 的 数据 原因 较 多 ,如 数据 集成 ,系统 重复 录入 等 ,通常 表现 为 多 条 记录 表达 
的 含义 相同 ,或 同一 目标 实体 的 记录 虽然 在 形式 上 有 所 不 同 ,但 其 描述 的 目标 却 相同 。 
这 些 重复 记录 的 数据 特征 并 不 明显 ,但 是 对 数据 识别 和 数据 清洗 造成 了 很 大 的 难度 。 因 
此 ,对 重复 记录 数据 进行 清洗 ,可 以 提高 数据 库 的 使 用 率 ,降低 系统 消耗 ,并 提高 数据 的 
质量 。 

重复 数据 检测 主要 分 为 基于 字段 和 基于 记录 的 重复 检测 。 基 于 字段 的 重复 检测 算法 主 
要 为 编辑 距离 算法 ;基于 记录 的 重复 检测 算法 主要 包括 排序 邻居 算法 、 优 先 队列 算法 、N- 
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Gram 聚 类 算法 。 采 用 排序 合并 算法 清洗 重复 数据 的 流程 如 图 2-4 所 示 。 

在 图 2-4 中 ,重复 数据 的 清洗 流程 主要 分 为 4 个 步骤 , 具 
体 如 下 。 

(1) 通过 对 源 数据 库 属 性 段 的 分 析 , 找 到 属性 的 唯一 值 ， 
并 根据 唯一 值 对 源 数据 库 中 的 数据 记录 进行 排序 ,可 以 选择 
自 上 而 下 或 者 自 下 而 上 的 顺序 排序 。 

(2) 按 顺序 扫描 数据 库 中 的 每 一 条 记录 ,并 将 它 与 相 邻 的 
记录 进行 比较 ,进行 记录 的 相似 度 匹配 计算 ,输出 修改 后 的 
数据 。 

(3) 如 果 计 算出 的 相似 度数 值 大 于 系统 设 定 的 阔 值 ,说 明 
该 记录 或 连续 的 几 条 记录 为 相似 重复 记录 , 则 进行 数据 记录 I 
的 合并 或 删除 操作 ;否则 扫描 下 一 条 数据 记录 ,重复 以 上 第 
(2) (3) 步 骤 。 

(4) 当 所 有 数据 记录 检测 完毕 后 ,输出 清洗 后 的 数据 图 2-4 采用 排序 合并 算法 清 
结果 。 洗 重 复数 据 的 流程 


2.2.3 数据 的 加 载 


数据 的 加 载 是 ETL 的 最 后 一 个 阶段 , 它 的 主要 任务 是 将 数据 从 临时 数据 表 或 文件 中 加 
载 到 指定 的 数据 仓库 中 。 一 般 来 说 ,可 以 通过 编写 SQL 语句 和 利用 加 载 工具 将 数据 加 载 到 
数据 仓库 中 。ETL 的 数据 加 载 和 数据 抽取 类 似 , 将 数据 加 载 到 目标 数据 表 或 者 数据 仓库 的 
过 程 中 可 分 为 全 量 加 载 . 增 量 加 载 以 及 批量 加 载 。 下 面 详细 介绍 一 下 ETL 的 全 量 加 载 、 增 
量 加 载 以 及 批量 加 载 。 


开始 


记录 排序 


相似 度 检测 


相似 度 大 于 辣 值 2 


记录 合并 /删除 


1. 全 量 加 载 


全 量 加 载 是 指 全 表 删 除 后 再 进行 全 部 (全 量 ) 数 据 加 载 。 从 技术 角度 来 说 ,全 量 加 载 和 
增 量 加 载 相 比 , 全 量 加 载 更 简单 。 一 般 只 需要 在 数据 加 载 之 前 将 目标 表 清 空 ,再 将 源 数 据 表 
中 的 数据 进行 导入 。 但 是 ,由 于 数据 量 、 系 统 资源 和 数据 实时 性 的 要 求 , 很 多 情况 下 都 需要 
使 用 增 量 加 载 机 制 。 


2. 增 量 加 载 


增 量 加 载 是 指 目标 表 仅 更 新 源 数据 表 中 变化 的 数据 。 增 量 加 载 的 关键 在 于 如 何 正确 设 
计 相应 的 方法 ,用 于 从 源 数 据 表 中 抽取 增 量 的 数据 ,以 及 变化 “牵连 ?数据 ( 虽 没有 变化 ,但 受 
到 变化 数据 影响 的 数据 )。 同 时 ,将 这 些 变化 的 和 未 变化 但 受到 影响 的 数据 ,在 完成 相应 的 
人 逻辑 转换 后 更 新 到 数据 仓库 中 。 

数据 加 载 的 性 能 和 作业 失败 后 可 进行 恢复 重启 的 易 维 护 性 ,需要 一 个 有 效 的 增 量 抽取 
机 制 的 支持 。 因 为 在 一 个 有 效 的 增 量 抽取 机 制 ,ETL 能 够 将 业务 系统 中 变化 的 数据 按 一 定 
的 频率 准确 地 进行 捕获 ,并 且 不 会 对 业务 系统 造成 太 大 的 压力 ,也 不 会 影响 现 有 的 业务 。 

ETL 的 增 量 加 载 类 似 于 增 量 抽取 ,同样 有 4 种 方式 ,分 别 是 时 间 戳 方式. 日志 表 方式 、 
全 表 对 比方 式 、 全 表 删 除 插入 方式 ,具体 介绍 如 下 所 示 。 


15 


16 


(1) 时 间 截 方式 , 即 在 业务 表 中 统一 添加 一 个 字段 作为 时 间 戳 , 当 联 机 分 析 处 理 
(COLAP) 系 统 更 新 修改 业务 数据 时 ,同时 也 会 修改 时 间 戳 字段 值 , 这 时 就 将 更 新 修改 的 数据 
加 载 到 目标 表 中 。 

(2) 日 志 表 方 式 , 即 在 OLAP 系统 中 添加 日 志 表 ,业务 数据 发 生变 化 时 ,更 新 维护 日 志 
表 内 容 。 

(3) 全 表 对 比方 式 , 即 抽取 所 有 源 数据 ,在 加 载 目标 表 之 前 先 根据 主键 和 字段 进行 数据 
比 对 ,有 更 新 的 数据 就 进行 更 新 或 插入 。 

(4) 全 表 删 除 插入 方式 ,删除 目标 表 中 的 数据 ,将 源 数据 表 中 的 数据 全 部 加 载 到 目标 
表 中 。 


3. 批量 加 载 


通常 ,对 于 几 十 万 条 记录 的 数据 迁移 而 言 , 采 取 DML( 数 据 操纵 语言 ) 的 insert update, 
delete 等 语句 能 够 较 好 地 将 数据 迁移 到 目标 数据 库 中 。 然 而 . 当 数据 迁移 量 过 大 时 ,DML 
语句 执行 时 生成 的 事物 日 志 ( 事 务 日 志 是 一 个 与 数据 库 文件 分 开 的 文件 ,用 于 存储 对 数据 库 
进行 的 所 有 更 改 , 并 全 部 记录 插入 ,更 新 ,删除 、 提 交 、 回 退 和 数据 库 模式 变化 ) 和 约束 条 件 将 
大 大 影响 加 载 性 能 , 故 需要 针对 数据 采取 批量 加 载 处 理 。 


2.3 ETL 常见 工具 介绍 


目前 比较 流行 的 ETL 工具 有 Pentaho Kettle, Hawk, Informatica PowerCenter 及 
DataStage, 对 这 些 工具 的 介绍 如 下 。 


1. Pentaho Kettle 


Pentaho Kettle 是 一 款 国外 免费 开源 的 ETL 工具 , 纯 Java 语言 编写 , 可 以 在 
Windows, Linux, UNIX 系统 上 和 运行, 并且 是 绿色 无 需 安装 的 。 

Kettle 的 中 文 名 称 叫 水 壶 ,该 工具 的 设计 理念 是 希望 把 来 自 不 同 数据 库 中 的 数据 放 到 
一 个 “ 壶 ”里 ,然后 以 一 种 指定 的 格式 流出 。Kettle 拥有 两 种 脚本 文件 ,分 别 是 
Transformation( 转 换 ) 和 Job( 作 业 ) ,其 中 Transformation 是 用 于 完成 数据 的 基础 转换 ,而 
Job 是 完成 整个 工作 流 的 控制 。 


2. Hawk 


Hawk 是 一 种 数据 采集 和 清洗 工具 ,依据 GPL(GNU 通用 公共 许可 证 ) 协 议 开源 ,基于 
C# 语 言 编写 的 ,并 且 其 前 端 界面 使 用 WPF 开发 ,支持 插件 扩展 。 

Hawk 的 含义 为 应” ,能够 高 效 、 准 确 地 捕杀 猎物 。 也 就 是 说 ,Hawk 能 够 灵活 有效 地 
采集 来 自 网 页 ,数据库 和 文件 等 来 源 的 数据 ,并 通过 可 视 化 的 拖 忠 操作 快速 地 进行 生成 .过 
滤 及 转换 等 操作 。Hawk 主要 应 用 于 怜 虫 和 数据 清洗 等 领域 。 


3. Informatica PowerCenter 


Informatica PowerCenter 是 Informatica 公司 开发 的 世界 级 的 企业 数据 集成 平台 , 
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是 业界 领先 的 ETL 工具 。Informatica PowerCenter 用 于 访问 和 集成 几乎 任何 业务 系 
统 、 任 何 格式 的 数据 , 它 可 按 任 意 速度 在 企业 内 交付 数据 ,具有 高 性 能 .高 可 扩展 性 .高 
可 用 性 的 特点 。Informatica PowerCenter 提供 了 多 个 可 选 的 组 件 , 以 扩展 Informatica 
PowerCenter 的 核心 数据 集成 功能 ,这 些 组 件 包 括 数据 清洗 和 匹配 、 数 据 屏蔽 、 数 据 验 
证 、 元 数据 交换 等 。 


4. DataStage 


IBM 的 InfoSphere DataStage 简称 DataStage, 它 是 一 个 领先 的 ETL 平台 ,可 跨 多 个 企 
业 系 统 集 成 数据 。DataStage 利用 高 性 能 并 行 框架 ,可 根据 项 目 需求 在 云 中 或 者 本 地 部 署 
ETL 环境 , 它 支 持 HBase, Hive, Amazon 以 及 MongoDB 等 数据 库 的 连接 ,可 以 灵活 .有效 
地 更 新 和 管理 数据 继承 的 基础 架构 。 


2.4 本章 小 结 
本 章 主要 讲解 了 ETL 的 相关 知识 ,包括 基于 ETL 的 数据 清洗 、ETL 关键 技术 以 及 


ETL 常见 的 工具 。 和 希望 读者 通过 本 章 的 学 习 认识 ETL, 并 熟悉 ETL 的 关键 技术 和 掌握 
ETL 常见 的 工具 ,便于 后 续 章 节 的 学 习 。 


2.5 本 章 习 题 


一 、 填 空 题 

t, 是 实现 商务 智能 (Business Intelligence,BI) 的 核心 和 灵魂 。 

2. ETL 是 将 业务 系统 的 数据 经 过 抽取 、 之 后 加 载 到 数据 仓库 的 过 程 。 
3. ETL 的 实现 有 多 种 方式 ,常见 的 方式 有 借助 \ 编 写 SQL 语句 、 

4. 数据 的 抽取 分 为 数据 的 全 量 抽取 和 数据 的 š 

5. 不 符合 要 求 的 数据 主要 有 不 完整 的 数据 、 ,重复 的 数据 三 大 类 。 
二 、 判 断 题 


1. 基于 ETL 的 数据 清洗 是 挖掘 有 价值 数据 的 一 种 方案 。 

2. 如 果 数 据 源 为 外 部 文件 ,可 使 用 SQL 语句 进行 数据 清洗 工作 。 
3. 不 完整 数据 主要 包括 日 期 越界 的 数据 。 
4 
5 


. 重复 数据 检测 主要 分 为 基于 字段 和 基于 记录 的 重复 检测 。 
.Kettle 是 一 款 国 外 免费 开源 的 ETL 工具 , 纯 Python 语言 编写 。 


N < < < ~ 


三 、 选 择 题 
1. 下 列 方式 ， 不 属于 增 量 抽取 的 方式 。 
A. 触发 器 方式 B. 时 间 惟 方式 


C. 全 表 比 对 方式 D. 批量 抽取 方式 


2. 下 列 算法 中 ， 不 可 用 于 检测 重复 记录 。 
A. 编辑 距离 算法 B. 优先 队列 算法 
C. N-Gram 聚 类 算法 D. 排序 邻居 算法 
四 、 简 答题 


简 述 不 符合 要 求 数据 的 清洗 流程 。 
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学 习 目标 

(1) 了 解 Kettle 工具 

(2) 掌握 Kettle 的 下 载 安装 
(3) 熟悉 Kettle 的 基本 概念 
(4) 掌握 Kettle 的 基本 功能 


“ 工 欲 善 其 事 , 必 先 利 其 器 ”,Kettle 作为 一 款 开源 的 ETL 解决 方案 ,掌握 它 的 基本 用 法 
非常 有 必要 。 本 章 将 针对 Kettle 工具 的 相关 知识 进行 详细 讲解 。 


3.1 Kettle 简介 


3.1.1 Kettle 概述 


Kettle 是 一 款 国 外 免费 开源 的 轻 量 级 ETL 工具 ,是 基于 Java 语言 开发 的 ,可 以 在 
Windows, Linux UNIX 系统 上 运行 ,并 且 是 绿色 无 需 安装 的 ,可 用 于 各 种 数据 库 之 间 数 据 
的 迁移 。 

Kettle 的 中 文 名 称 为 “水 过 ”, 其 设计 理念 是 主 程序 员 Matt 希望 将 来 自 不 同 数据 库 中 的 
数据 放 到 一 个 壶 里 ,然后 以 一 种 指定 的 格式 流出 ( 即 按照 用 户 要 求 的 格式 输出 )。Kettle 支 
持 管理 来 自 不 同 数据 库 的 数据 ,通过 提供 一 个 图 形 化 的 用 户 环境 描述 用 户 想 要 做 什么 ,而 不 
是 用 户 想 要 怎么 做 。 

Kettle 工具 主要 由 4 个 组 件 组 成 ,分 别 是 Spoon、Pan、Kitchen 及 Carte 组 件 ,具体 功能 
介绍 如 下 。 

。 Spoon 是 Kettle 的 集成 开发 环境 , 它 会 提供 一 个 基于 SW T 的 图 形 用 户 界面 ,主要 用 
于 构建 ETL Jobs( 作 业 ) 和 Transformations (转换 ), 也 可 用 于 执行 或 调试 作业 、 转 
换 , 还 可 用 于 监控 ETL 操作 的 性 能 。 

Pan 是 以 命令 行 的 方式 ( 即 编 写 Shell 脚本 ) 执 行 Spoon 生成 的 Transformations 程 
序 , 运 行 在 后 台 , 并 且 该 组 件 没有 图 形 化 用 户 界面 。 

Kitchen 是 以 命令 行 的 方式 ( 即 编写 Shell 脚本 ) 执 行 Spoon 生成 的 Jobs 程序 ,运行 
在 后 台 , 并 且 该 组 件 没 有 图 形 化 用 户 界面 。 

Carte 是 Kettle 中 的 一 个 重要 组 件 , 它 是 基于 Jetty 的 轻 量 级 HTTP 服务 器 ,运行 在 
后 台 , 主 要 用 于 远程 监控 HTTP 执行 Jobs 和 Transformations 的 进度 。 


3.1.2 Kettle 的 设计 原则 


每 个 ETL 工具 都 会 有 自己 的 设计 原则 ,Kettle 也 不 例外 。Kettle 的 设计 原则 一 共有 7 
点 ,具体 内 容 如 下 。 


1. 易于 开发 


作为 数据 仓库 和 ETL 的 开发 者 ,如 果 只 想 把 时 间 用 在 创建 BI 解决 方案 上 ,那么 任何 用 
于 软件 安装 和 配置 的 时 间 都 是 一 种 浪费 。 例 如 ,为 了 创建 数据 库 连 接 , 很 多 与 Kettle 类 似 
的 工具 都 要 求 用 户 手 工 输入 数据 库 驱 动 的 类 名 和 JDBC URL 连接 串 , 虽 然 用 户 可 以 通过 互 
联网 搜索 到 这 些 信息 ,但 这 明显 把 用 户 的 注意 力 转移 到 了 技术 方面 ,并 非 业 务 方面 ,而 
Kettle 就 是 尽量 避免 这 类 问题 出 现 。 


2. 避免 自 定义 开发 


一 般 来 说 ,ETL 工具 的 作用 是 使 复杂 的 事情 变 得 简单 ,简单 的 事情 更 简单 。ETL 提供 
了 标准 化 的 构建 组 件 满足 ETL 开发 人 员 不 断 重复 的 需求 ,通过 手工 编写 Java 代码 或 Java 
脚本 代码 实现 一 些 功能 ,但 是 增加 的 代码 会 给 项 目 增加 复杂 度 和 维护 成 本 ,因此 要 尽量 避免 
手工 开发 ,可 组 合 使 用 已 提供 的 组 件 完成 任务 。 


3. 所 有 功能 都 能 通过 用 户 界面 完成 


对 于 “所 有 功能 都 能 通过 用 户 界面 完成 ?这 一 黄金 准则 也 有 几 个 例外 (如 kettle. 
properties 和 shared. xmr 文件 就 是 两 个 例外 ,不 能 通过 Kettle 界面 修改 这 两 个 配置 文件 ， 
而 是 需要 通过 手工 修改 ) ,如 果 不 直 接 把 所 有 功能 通过 界面 的 方式 提供 给 用 户 ,那么 就 是 在 
浪费 开发 人 员 的 时 间 ,也 是 在 浪费 用 户 的 时 间 。 


4. 没有 命名 限制 


ETL 转换 里 有 各 种 各 样 的 名 称 , 如 数据 库 连 接 、 转 换 . 步 又 .数据 字段 .作业 等 都 有 一 个 
名 称 。 若 在 命名 时 考虑 到 一 些 限制 (如 长 度 . 选 择 的 字符 ), 就 会 使 工作 变 得 烦琐 。ETL 只 
需要 足够 智能 化 的 处 理 ETL 开发 人 员 设置 的 各 种 名 称 。 


5. 透明 


如 果 有 ETL 工具 需要 了 解 转 换 中 某 一 部 分 工作 是 如 何 完成 的 ,那么 这 个 ETL 工具 就 
是 不 透明 的 。 若 想 实 现 ETL 工具 里 的 某 一 个 功能 ,就 需要 准确 地 知道 这 个 功能 是 如 何 完 成 
的 。 人 允许 用 户 看 到 ETL 过 程 中 各 部 分 的 运行 状态 也 很 重要 ,这 样 可 以 加 快 开 发 速度 ,降低 
维护 成 本 。 


6. 灵活 的 数据 通道 


对 ETL 开发 者 来 说 ,创造 性 极为 重要 ,不 但 可 以 让 你 享受 到 工作 的 乐趣 ,而且 还 能 让 你 
以 最 快 的 方式 开发 出 ETL 方案 。Kettle 在 数据 的 发 送 、 接 收 方式 上 设计 得 尽 可 能 灵活 。 
Kettle 可 以 在 文本 文件 ,关系 数据 库 等 不 同 数据 源 之 间 复 制 和 分 发 数据 。 
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7. 只 映射 需要 映射 的 字段 


在 一 些 ETL 工具 里 可 以 看 到 数 百 行 的 输入 和 输出 映射 ,对 于 维护 人 员 来 说 ,这 是 一 个 
很 强大 的 功能 。 在 ETL 开发 过 程 中 ,字段 在 不 断 地 变化 ,大 量 的 字段 映射 也 会 增加 维护 的 
成 本 ,而 Kettle 的 一 个 核心 原则 是 将 ETL 流程 中 所 有 未 指定 的 字段 自动 传递 到 下 一 个 组 
件 中 ,因此 极 大 地 降低 了 维护 的 成 本 。 也 就 是 说 ,输入 的 字段 会 自动 出 现在 输出 流 中 ,除非 
中 间 过 程 专门 设置 了 终止 某 个 字段 的 传递 。 


3.2 Kettle 的 下 载 安装 


Kettle 的 集成 开发 环境 Spoon 提供 了 一 个 基于 SWT 的 图 形 用 户 界面 ,主要 用 于 ETL 
的 开发 。 下 面 分 步骤 讲解 如 何 下 载 安装 Windows 环境 下 的 Kettle 工具 。 由 于 Kettle 工具 
是 运行 在 JVM 平台 上 的 ,所 以 安装 Kettle 之 前 必须 配置 好 JDK 环境 。 关 于 JDK 环境 的 下 
载 . 安 装 以 及 配置 ,这 里 不 再 歼 述 (需要 注意 的 是 Kettle 版 本 和 JDK 版 本 的 兼容 性 )。 
Kettle 的 下 载 安 装 步骤 具体 如 下 。 


1. 下 载 Kettle 安装 包 


Kettle 官网 下 载 地 址 为 https://sourceforge. net/projects/pentaho/files/Data % 
20Integration/ 。 由 于 编写 本 书 时 ,Kettle 工具 的 最 新 版 本 是 pdi-ce-8. 2. 0. 0-342. zip, 所 以 
本 书 就 以 Kettle 8. 2. 0 为 准 进行 下 载 安装 ,具体 如 图 3-1 所 示 。 


Summary Files Reviews Support wii News Donate % 


Download Latest Version 
让 A 


Home/ Data Integration 


J parenttolder 


O71 2017-05-22 744 h 
Dro 2016-11-09 132 LJ 
De 2016-04-13 124 LJ 
Déo 2015-12-10 56 O 
口 54 2015-06-15 57 口 
Dss 2015-02-17 13 口 
口 52 2014-10-06 o 
Os. 2014-06-24 18 O 


图 3-1 Kettle 版 本 的 选择 
单 击 图 3-1 中 的 Get Updates 按钮 ,下 载 Kettle TH. 
2. 安装 Kettle 


由 于 Kettle 工具 是 绿色 无 需 安装 的 ,因此 只 要 解压 下 载 Kettle 工具 pdi-ce-8. 2. 0. 0- 
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342. zip 即 可 ,解压 后 Kettle 的 安装 目录 为 /pdi-ce-8. 2. 0. 0-342/data-integration , 具体 如 


图 3-2 所 示 。 


名 称 名 称 

À dasses E ucENsEbd 

国 Data Integration.app Pan.bat 

W Data Service JDBC Driver C pansh 

W docs @ PentahoDatalntegration OSS License... 
W launcher purge-utility.bat 

W ib [ purge-utility.sh 

Ë ibswt Ë README. bt 

W plugins Ë README-spark-app-builderbd 
D pwd runSamples.bat 

W samples O runSamples.sh 

W simple-jndi set-pentaho-env.bat 
J system D set-pentaho-env.sh 

J ui Spark-app-builder.bat 
Carte.bat O spark-app-builder.sh 
C carte.sh Spoon.bat 

Encr.bat C spoon.command 

O encr.sh ES spoonico 

Import.bat spoon.png 

口 importsh O spoonsh 

D import-rules.xml SpoonConsole.bat 
Kitchen.bat SpoonDebug.bat 

口 kitchen.sh O spoonDebug.sh 

Ü ucENsEbd C yarn.sh 


图 3-2 Kettle 的 安装 目录 


3. 配置 Kettle 


将 Java 和 Kettle 的 安装 路 径 都 添加 至 系统 环境 变量 中 ,便于 后 续 在 Windows 任何 位 
置 都 可 进行 引用 启动 Kettle 工具 ;将 数据 库 驱 动 ( 本 书 使 用 mysql-connector-java-5. 1. 46- 
bin. jar 驱动 ) 添 加 至 Kettle 安装 包 下 的 lib 文件 夹 下 ,避免 创建 数据 库 连 接 时 出 现 数据 库 找 


不 到 的 问题 。 


4. 启动 Kettle 


双击 Kettle 安装 目录 下 的 Spoon. bat 脚本 ,启动 Kettle。 通 过 查看 Kettle 启动 的 界 
面 ,判断 Kettle 工 具 是 否 启动 成 功 , 若 出 现 图 3-3 所 示 的 界面 , 则 说 明 Kettle 安装 启动 


成 功 。 


Kettle 的 主 界面 大 致 分 为 4 部 分 , 即 工具 栏 ` 工 具 图 标 、Kettle 的 树 形 列表 以 及 工作 区 ， 


具体 如 图 3-4 所 示 。 


在 图 3-4 中 ,第 一 行 红 框 是 工具 栏 , 主 要 有 "文件 ”编辑 ”视图 ”执行 ”工具 ”以 及 " 帮 


助 ”6 个 操作 选项 ;第 二 行 红 框 是 工具 图 标 ; 左 侧 红 框 是 Kettle 的 树 形 列表 ,主要 包含 * 主 对 
象 树 ”" 和 “核心 对 象 ”, 其 中 “ 主 对 象 树 ” 包 含 转换 和 作业 ,而 “核心 对 象 "? 包 含 转换 和 作业 各 自 
对 应 的 核心 对 象 , 且 “ 核 心 对 象 " 就 是 后 续 操作 中 使 用 到 的 步骤 或 控件 ; 右 侧 红 框 是 工作 区 ， 
图 3-4 中 显示 的 是 一 个 欢迎 界面 ,工作 时 关闭 欢迎 界面 即 可 。 
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Pentaho Data Integration 


Version 8.2 


General Avatabity Release - 8 2 0 0.342 
Bad Date: 十 一 月 14. 2018 10:30:55 


Copyright (C) 2007 - 2019 Hitachi Vantara. Angnts reserved. 


with the License. You may obtain a copy of the License at 
http /www apache org/ioenses/LICENSE-2 0 
Unies requred by apphcable iw or agreed to m arting. 


distributed under the License is distributed on an -AS |S- BASIS, 
JES OR CONDITIONS OF ANY KINOD, ober expresa or piod. 
permissions and 
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图 3-3 Kettle 安装 启动 成 功 的 界面 


ma Wm 执行 IR eo | TRIS 


[Serch X ta d> 


sai a Welcome to Pentaho Data Integration |. 
(=E 
DO ff 


WORK LEARN EXTEND UPGRADE 


Kettle 的 树 形 列表 


Community [加 | Pentaho Forums hiachivantara.com 
Join thedisaussion > Jon mhedsassen》 Vtu» 


图 3-4 Kettle 的 主 界面 


3.3 Kettle 的 基本 概念 


一 个 数据 抽取 过 程 主要 包括 创建 一 个 作业 ,并 且 每 个 作业 可 以 包括 多 个 转换 操作 。 此 
数据 抽取 过 程 可 通过 Kettle 工具 完成 .也 可 以 通过 编写 程序 调用 的 方式 实现 。 下 面 通过 一 
张 图 描述 Kettle 的 概念 模型 ,具体 如 图 3-5 所 示 。 

从 图 3-5 中 可 以 看 出 ,Kettle 工具 的 执行 分 为 两 个 层次 , 即 转 换 和 作业 ,这 两 个 层次 最 
主要 的 区 别 在 于 数据 传递 和 执行 方式 。 接 下 来 ,对 Kettle 的 转换 ,作业 进行 详细 讲解 。 


23 


数据 清洗 


执行 
数据 表 
数据 文件 HEED fee (ob) 转换 
执行 (Transformation ) 
评估 
|" 
行 获取 文人 送 
Sha |] 执行 T FTp ][ Pa . B: 
(Step) 上 (Hop) 
— RŽ 获取 文件 读 取 数 据 
Mail ~ = SFTP 
T 取 文件 一 一 一 一 
SQL |M z O rr 
执行 
图 3-5 Kettle 的 概念 模型 
3.3.1 转换 


转换 是 ETL 解决 方案 中 重要 的 组 成 部 分 之 一 ,主要 用 于 数据 的 抽取 、 转 换 以 及 加 载 等 
操作 ,其 本 质 是 一 组 图 形 化 的 数据 转换 配置 的 逻辑 结构 。 一 个 转换 包括 一 个 或 多 个 步骤 ,如 
读 取 文件 .过 滤 输出 行 、 数 据 清 洗 或 将 数据 加 载 到 数据 库 中 等 步骤 。 转 换 中 的 步骤 是 通过 跳 
连接 的 。 跳 定义 了 一 个 单 向 通道 ,允许 数据 从 一 个 步骤 向 另 一 个 步骤 流动 。 在 Kettle rh, 
数据 的 单位 是 行 ,数据 流 就 是 数据 行 从 一 个 步骤 到 另 一 个 步骤 的 移动 。 

下 面 通过 一 个 简单 的 例子 详细 讲解 Kettle 中 的 转换 。 

双击 Kettle 目录 下 的 Spoon. bat 脚本 ,启动 Kettle 工具 ,在 工具 栏 处 选择 “文件 ”一 “新 
建 ”>“ 转 换 ” 命 令 ,创建 一 个 转换 ,名 称 默认 是 “转换 1”, 具 体 如 图 3-6 和 图 3-7 所 示 。 


图 3-6 创建 转换 


在 图 3-7 中 选择 “文件 >“ 保存” 命令 ,可 以 对 转换 进行 重 命名 以 及 选择 转换 保存 路 径 ， 
重 命 名 转换 为 example, 具 体 如 图 3-8 所 示 。 
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E3 Spoon - 8 1 leeks 
B SERR -~ Connect 
RN ong] 
aa x ne PTH D-E Xega E mu ~ 
DO 
a 3 1 
b 四 Run configurations 
DO De 连接 
D Steps (#38) 
O Hops (节点 连接 ) 
DO 数据 库 分 区 schemas 


DD Hadoop clusters Drag & Drop a Step 
Also try shift + double-click 


T di) + | | , 
图 3-7 成 功 创建 转换 
EB Spoon - example 
XHA RE 视图 执行 工具 帮助 
日 区 回回 区 -~ Connect 
[A =uen 2 one 
Seh xX wg |D- H Dl eñ EE Æ 10% -~ 
Oss š 


a 3K example 
b E Run configurations 
四 D8 连接 
DO Steps (2%) 
四 Hops (TAR) 
DO 到 经 库 分 区 schemas 


DO 788 

D KettlefEBtschemas 

四 Data Services Drag & Drop a Step 

E Hadoop clusters Also try shift + double-click ~ 
T ' | | ° = 


图 3-8 重 命名 转换 为 example 


在 图 3-8 中 , 主 对 象 树 中 的 节点 主要 用 于 显示 当前 转换 的 运行 配置 参数 .数据 库 连 接 、 
步 又 以 及 节点 连接 ( 跳 ) 等 信息 。 单 击 Kettle 树 形 列表 的 核心 对 象 ,切换 到 转换 的 核心 对 象 
界面 。 转 换 的 核心 对 象 如 图 3-9 所 示 。 

从 图 3-9 中 可 以 看 出 ,核心 对 象 中 包含 Kettle 所 有 的 转换 步骤 (或 转换 控件 ) ,后 续 设 计 
转换 操作 时 ,可 直接 到 核心 对 象 中 查找 所 需 的 转换 步骤 。 

在 Kettle 主 界面 的 工作 区 右 击 空白 处 ,从 弹出 的 快捷 菜单 中 选择 “新 建 注释 ”命令 ,并 
添加 注释 的 内 容 ; 然 后 单 击 “ 输 入 ”, 将 “ 表 输入 ” 拖 忠 到 Kettle 的 工作 区 ; 单 击 “ 输 出 ”, 将 “ 文 


数据 清洗 


图 3-9 转换 的 核心 对 象 


本 文件 输出 ”也 拖 忠 到 Kettle 的 工作 区 ; 按 住 Ctrl 键 的 同时 选中 “ 表 输 入 ”和 “文本 文件 输 
出 ”并 右 击 ,从 弹出 的 快捷 菜单 中 选择 “新 建 节点 连接 ”命令 ,在 弹出 的 窗口 中 选择 “起 始 步 
又” 和 “目标 步骤”, 单 击 “ 确 认 ” 按 钮 ,建立 “ 表 输 入 ”向 “文本 文件 输出 ”的 连接 ,具体 效果 如 
图 3-10 所 示 。 


($X example 3 
P TH D ef XOJA Æ 10% ~ 


| 
该 转换 是 从 数据 库 中 读 取 数据 , 并 把 数据 写 到 文本 文件 中 
G> | 


图 3-10 一 个 简单 的 转换 例子 


从 图 3-10 中 的 注释 可 以 看 出 ,这 个 简单 的 转换 例子 是 实现 从 数据 库 中 读 取 数 据 ,并 把 
数据 写 到 文本 文件 中 ,该 转换 中 包含 了 步骤 、 跳 ,注释 以 及 数据 行 ,具体 介绍 如 下 。 


1. 步骤 


步骤 是 转换 里 的 基本 组 成 部 分 ,也 可 被 称 为 控件 。 步 骤 以 图 标的 方式 展现 。 图 3-10 中 
显示 了 两 个 步骤, 即 “ 表 输 入 ”步骤 和 "文本 文件 输出 步骤。 一般 地 ,每 个 步骤 都 会 具有 一 些 
关键 特性 ,具体 如 下 。 

”每 个 步骤 都 必须 有 一 个 名 字 , 并 且 这 个 名 字 在 转换 范围 内 唯一 。 

。 每 个 步骤 都 可 以 读 、 写 数据 行 。 需 要 注意 的 是 “生成 记录 ?步骤 除外 ,因为 该 步骤 只 

用 于 写 数据 。 
. 步骤 将 数据 写 到 与 之 相连 的 一 个 或 多 个 输出 跳 , 再 传送 到 跳 的 另 一 端的 步 又。 对 于 
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另 一 端的 步骤 来 说 ,这 个 跳 就 是 一 个 输入 跳 ,步骤 通过 输入 跳 接收 数 据 。 

”大 多 数 的 步骤 都 可 以 有 多 个 输出 跳 , 一 个 步骤 的 数据 发 送 可 以 被 设置 为 轮流 发 送 和 
复制 发 送 。 轮 流 发 送 是 将 数据 行 依次 发 给 每 个 输出 跳 。 复 制 发 送 是 将 全 部 数据 行 
发 送 给 所 有 的 输出 跳 。 

。 在 运行 转换 时 ,一 个 线程 运行 一 个 步 台 和 步骤 的 多 份 副本 ,所 有 步骤 的 线程 几乎 同 
时 运行 ,数据 行 就 会 连续 流 过 步骤 之 间 的 跳 。 

Kettle 转换 中 的 步骤 按 功 能 分 类 可 以 分 为 输入 类 、 输 出 类 、 操 作 类 以 及 脚本 类 等 ,每 个 
步骤 都 完成 一 种 特定 的 功能 。 例 如 ,图 3-10 中 的 “ 表 输 入 ”步骤 主要 用 于 向 关系 型 数据 库 的 
数据 表 发 出 一 个 SQL 查询 ,并 将 得 到 的 数据 行 写 到 它 的 输出 跳 中 。“ 文 本 文件 输出 步骤 主 
要 用 于 从 它 的 输入 跳 读 取 数 据 行 , 并 将 数据 行 写 到 文本 文件 中 。 


2. 跳 


跳 是 步骤 之 间 带 箭头 的 连接 线 , 即 数据 的 通道 ,用 于 连接 两 个 步 又 ,实现 将 元 数据 从 一 
个 步骤 传递 到 另 一 个 步骤 ,支持 分 发 和 复制 等 方式 。 这 里 需要 注意 的 是 ,由 于 每 个 步骤 都 是 
单独 的 线程 , 当 启动 转换 时 ,每 个 步骤 都 会 创建 各 自 的 线程 并 接收 和 推送 传递 数据 ,因此 数 
据 处 理 的 顺序 并 不 是 按照 节点 连接 箭头 的 顺序 执行 的 。 

实际 上 , 跳 是 两 个 步骤 之 间 的 被 称 为 行 集 (Row Set) 的 数据 行 缓存 ( 行 集 的 大 小 可 以 在 转 
换 的 设置 里 定义 )。 若 行 集 满 了 , 则 向 行 集 写 数据 的 步骤 将 停止 写 人 ,直到 行 集 里 又 有 空间 。 
若 行 集 空 了 , 则 从 行 集 读 取 数据 的 步骤 就 会 停止 读 取 , 直 到 行 集 里 又 有 可 读 取 的 数据 行 。 

跳 是 基于 行 集 缓存 的 规则 允许 每 个 步骤 都 由 一 个 独立 的 线程 运行 ,这 样 并 发 程序 最 高 ; 
这 一 规则 也 允许 数据 以 最 小 消耗 内 存 的 数据 流 方 式 处 理 。 在 数据 仓库 里 需要 经 常 处 理 海量 
的 数据 ,所 以 这 种 并 发 性 高 且 低 耗 内 存 的 方式 是 ETL 工具 的 核心 需求 。 

对 于 Kettle 来 说 ,不 可 能 定义 一 个 执行 顺序 ,并 且 也 没有 必要 确定 一 个 起 点 和 终点 。 
因为 所 有 步 又 都 是 以 并 发 方式 执行 的 , 当 转 换 启 动 后 ,所 有 步骤 都 会 同时 启动 ,从 它们 的 输 
入 跳 中 读 取 数 据 , 并 把 处 理 过 的 数据 写 到 输出 跳 , 直 到 输入 跳 里 不 再 有 数据 就 中 止步 又 的 运 
行 ; 当 所 有 步骤 都 中 止 了 , 那 整个 转换 就 中 止 了 。 也 就 是 说 ,从 功能 角度 看 ,转换 有 明确 的 起 
点 和 终点 。 例 如 ,图 3-10 中 的 转换 起 点 就 是 “ 表 输 入 ”步骤 (该 步骤 生成 数据 行 ) ,转换 终点 
是 “文本 文件 输出 ?步骤 (该 步骤 将 数据 写 到 文本 文件 中 ,并 且 后 面 不 再 有 其 他 节点 )。 

需要 注意 的 是 ,由 于 转换 里 的 每 个 步骤 都 依赖 于 前 一 个 步骤 获取 字段 值 ,因此 当 创 建新 
跳 时 ,在 转换 里 不 能 进行 循环 。 


3. 注释 


注释 是 一 个 特殊 的 存在 ,不 参与 程序 的 处 理 , 它 以 文本 描述 的 方式 呈现 在 作业 中 ,只 为 
增强 流程 的 可 读 性 ,可 放 在 流程 图 中 的 任何 一 个 位 置 。 注 释 的 重要 性 是 毋庸 置疑 的 ,必要 的 
注释 可 大 大 减少 维护 成 本 。 

4. 数据 行 


数据 是 以 数据 行 的 形式 沿 着 步骤 流动 。 一 个 数据 行 是 从 零 到 多 个 字段 的 集合 ,Kettle 
中 字段 的 数据 类 型 一 共有 10 种 ,具体 见 表 3-1, 
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表 3-1 Kettle 中 字段 的 数据 类 型 


数据 类 型 相关 说 明 
String 字符 类 型 的 数据 
Number 双 精 度 浮 点 数 
BigNumber 任意 精度 数值 
Integer 带 符号 长 整 型 (64 位 ) 
Internet Address 互联 网 地 址 
Date 带 毫秒 精度 的 日 期 时 间 值 
Serializable 序列 化 的 数据 
Boolean 取 值 为 true 或 false 的 布尔 值 
Binary 包括 图 像 声音、 视频 及 其 他 类 型 的 二 进 制 数据 
Timestamp BB R 
3.3.2 ”作业 


目前 ,大 多 数 的 ETL 项 目 都 需要 完成 各 种 各 样 的 维护 工作 。 例 如 ,如 何 传送 文件 、 验 证 
数据 库 中 的 数据 表 是 否 存在 等 操作 ,这些 操作 都 必须 按照 一 定 顺 序 完成 ,由 于 转换 是 以 并 行 
方式 执行 的 ,因此 需要 一 个 可 以 串 行 执行 的 作业 处 理 这 些 操作 。 

一 个 作业 包含 一 个 或 者 多 个 作业 项 ,并 且 这 些 作业 项 都 是 以 某 种 顺序 进行 执行 的 。 作 
业 执 行 的 顺序 由 作业 项 之 间 的 跳 (Job Hop) 和 每 个 作业 项 的 执行 结果 决定 。 

下 面 通过 一 个 简单 的 例子 详细 讲解 Kettle 中 的 作业 。 

双击 Kettle 目录 下 的 Spoon. bat 脚本 ,启动 Kettle 的 图 形 化 主 界面 ,在 工具 栏 处 选择 
“文件 ”>“ 新 建 ”>“ 人 作业” 命令 ,创建 一 个 作业 ,名 称 默认 是 “作业 1”, 具 体 如 图 3-11 和 图 3-12 
所 示 。 


图 3-11 创建 作业 
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> E Run configurations 
四 DB 连接 


D Hadoop clusters 


Drag & Drop an Entry 


Also try shift + double-click 


图 3-12 成 功 创建 作业 


在 图 3-12 中 选择 “文件 ”一 “保存 ”命令 ,可 以 对 作业 进行 重 命名 以 及 选择 作业 保存 路 
径 ,作业 重 命名 为 example_job, 具 体 如 图 3-13 所 示 。 


EB Spoon - example job 
文件 (有 ”编辑 视图 执行 工具 帮助 
B SERR ° + 
和 Ewan A one 
[Search |X w 
Ee 
a Z example job 
b E Run configurations 
四 D8 连接 
四 作业 项 目 
DO 子 服务 器 
EO Hadoop clusters 


Drag & Drop an Entry 


Also try shift + double-click 


图 3-13 ”作业 重 命名 为 example_job 


在 图 3-13 中 , 主 对 象 树 中 的 节点 主要 用 于 显示 当前 作业 的 运行 配置 参数 数据库 连接 
以 及 作业 项 目 等 信息 。 单 击 Kettle 树 形 列表 的 核心 对 象 ,切换 到 作业 的 核心 对 象 界面 。 转 
换 的 核心 对 象 如 图 3-14 所 示 。 

从 图 3-14 中 可 以 看 出 ,作业 核心 对 象 中 包含 Kettle 所 有 作业 的 作业 项 (或 作业 控件 )， 
后 续 设计 作业 操作 时 ,可 直接 到 作业 核心 对 象 中 查找 所 需 的 作业 项 。 
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Drag& Drop an Entry 


Also try shift + double-click 


图 3-14 转换 的 核心 对 象 


在 Kettle 主 界面 的 工作 区 右 击 空白 处 ,从 弹出 的 快捷 菜单 中 选择 “新 建 记录 ”命令 ,并 
添加 注释 的 内 容 ; 然 后 单 击 “ 通 用 ”, 将 Start 和 “作业 ”依次 拖 忠 到 Kettle 的 工作 区 ; 单 击 “ 邮 
件 ”, 将 “发 送 邮 件 ” 也 拖 中 到 Kettle 的 工作 区 ;然后 同时 选中 Start 和 “作业 ” 右 击 ,从 弹出 的 
快捷 菜单 中 选择 “新 节点 "命令 ,建立 Start 和 “作业 ”之 间 的 连接 ,再 通过 同样 的 操作 将 “ 作 
业 ” 与 “作业 ”“ 作 业 ” 与 “发 送 邮件 ”之 间 也 建立 连接 ,具体 效果 如 图 3-15 所 示 。 
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发 送 闻 件 2 发 送 闻 件 3 发 送 闻 件 4 


图 3-15 一 个 简单 的 作业 例子 


为 了 便于 理解 ,对 图 3-15 中 的 作业 项 进行 重 命名 ,具体 如 图 3-16 所 示 。 
从 图 3-16 中 可 以 看 出 ,该 作业 是 一 个 典型 的 加 载 数 据 到 数据 仓库 的 作业 ,该 作业 中 包 


含 作业 项 ,作业 跳 以 及 多 路 径 和 回溯 ,具体 介绍 如 下 。 
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图 3-16 ”对 作业 项 进行 重 命名 


1. 作业 项 


作业 项 是 作业 的 基本 构成 部 分 ,也 可 称 为 控件 。 作 业 项 类 似 于 转换 中 的 步骤 ,也 可 以 使 
用 图 标的 方式 进行 图 形 化 展示 。 作 业 项 与 步骤 有 很 大 的 区 别 ,具体 如 下 。 

° 步骤 的 名 字 是 唯一 的 ,而 作业 项 可 以 进行 复制 。 也 就 是 说 ,可 以 将 一 个 作业 项 放 在 
多 个 不 同 的 位 置 ,并 且 这 些 复 制 的 作业 项 中 的 信息 都 是 相同 的 , 若 修改 了 其 中 一 个 
作业 项 ,那么 其 他 复制 的 作业 项 也 都 会 随 之 修改 。 
步骤 之 间 的 数据 行 是 以 数据 流 的 方式 传递 的 ,而 作业 项 之 间 可 以 传递 一 个 结果 对 
象 ,并 且 结 果 对 象 里 包含 了 数据 行 , 但 数据 行 不 是 以 流 的 方式 传递 ,而 是 等 到 一 个 作 
业 项 执行 完成 后 ,再 传递 给 下 一 个 作业 项 。 
。 默认 情况 下 ,所 有 步骤 都 是 以 并 行 的 方式 执行 ,而 所 有 作业 项 目 都 是 串 行 方式 执 

行 的 。 


2. 作业 跳 


作业 跳 是 作业 项 之 间 的 连接 线 , 它 定义 了 作业 的 执行 路 径 。 作 业 里 每 个 作业 项 的 不 同 
运行 结果 决定 了 作业 的 不 同 执行 路 径 , 具 体 如 下 。 

。 无条件 执 行 : 不 论 上 一 个 作业 项 执行 成 功 ,还 是 失败 ,下 一 个 作业 项 都 会 执行 ,如 图 
3-16 中 的 蓝 色 连 接线 ,并 且 上 面 有 一 个 锁 的 图 标 。 

+ 当 运 行 结果 为 “ 真 ” 时 , 则 执行 : 当 上 一 个 作业 项 的 执行 结果 为 “ 真 ” 时 ,执行 下 一 个 
作业 项 。 通 常 在 需要 无 错误 执行 的 情况 下 使 用 ,如 图 3-16 中 的 绿色 连接 线 ,并 且 上 
面 有 一 个 对 钩 的 图 标 。 

。 当 运 行 结果 为 “ 假 ” 时 , 则 执行 : 当 上 一 个 作业 项 的 执行 结果 为 “ 假 ? 或 者 没有 成 功 执 
行 时 ,执行 下 一 个 作业 项 ,如 图 3-16 中 的 红色 连接 线 ,并 且 上 面 有 一 个 红色 的 停止 
图 标 。 


3. 多 路 径 和 回溯 


Kettle 使 用 一 种 回溯 算法 执行 作业 里 的 所 有 作业 项 ,并 且 作 业 项 的 执行 结果 ( 真 / 假 ) 决 
定 执行 的 路 径 。 回 溯 算 法 : 假设 执行 到 一 条 路 径 的 某 个 节点 时 ,依次 执行 这 个 节点 的 所 有 
子路 径 ,直到 没有 可 执行 的 子路 径 ,就 返回 该 节点 的 上 一 个 节点 ,如 此 反复 。 

下 面 通过 一 个 简单 的 例子 介绍 回溯 算法 ,具体 如 图 3-17 所 示 。 


图 3-17 使 用 回溯 算法 串 行 执行 多 个 路 径 


在 图 3-17 中 ,作业 项 A,B,C 的 执行 顺序 具体 如 下 。 

(1) Start 作业 项 搜索 下 一 个 节点 的 所 有 作业 项 , 即 作 业 项 A 和 C。 

(2) 执行 A 作业 项 。 

(3) 搜索 A 作业 项 后 面 的 作业 项 , 即 作业 项 B。 

(4) 执行 B 作 业 项 。 

(5) 搜索 B 作业 项 后 面 的 作业 项 ,没有 找到 任何 作业 项 。 

(6) 回 到 A 作业 项 ,也 没有 找到 其 他 作业 项 。 

(7) 回 到 Start 作业 项 ,发 现 另 一 个 要 执行 的 作业 项 C。 

(8) 执行 C 作业 项 。 

(9) 搜索 C 作业 项 后 面 的 作业 项 ,没有 找到 任何 作业 项 。 

(10) 回 到 Start 作业 项 ,没有 找到 其 他 作业 项 。 

(11) 作业 结束 。 

由 于 没有 定义 作业 的 执行 顺序 ,上 述 执行 顺序 为 作业 项 A—B— C, F 3ë Bu Iñi Jy: tb, nf 
以 为 作业 项 CA 一 B。 


4. 作业 项 结果 


作业 项 的 执行 结果 不 仅 决定 了 作业 的 执行 路 径 ,还 向 下 一 个 作业 项 传递 了 一 个 结果 对 
象 ,结果 对 象 包含 一 组 数据 行 一 组 文件 名 \ 行 数 ( 读 、 写 .输入 输出 .更 新 .删除 .拒绝 的 行 
数 ) .错误 数 (转换 中 的 错误 数 ) 以 及 脚本 作业 项 的 退出 状态 。 


3.4 Kettle 的 基本 功能 


3.4.1 转换 管理 


在 Kettle 工具 中 ,转换 管理 主要 包括 输入 、 输 出 、 转 换 、 应 用 流程、 脚本 、 查 询 、 连 接 、 检 
验 、 作 业 、 映 射 . 批 量 加 载 等 功能 。 下 面 通过 一 张 表 描述 Kettle 转换 功能 常用 的 控件 ,具体 
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见 表 3-2, 
表 3-2 Kettle 转换 功能 常用 的 控件 
转换 类 别 步骤 /控件 相关 说 明 
CSV 文件 输入 从 本 地 的 CSV 文件 中 输入 数据 
文本 文件 输入 | 从 本 地 的 文本 文件 中 输入 数据 
RMA 从 数据 库 的 数据 表 中 输入 数据 
获取 系统 信息 。 | 读 取 系 统 信息 输入 数据 
文本 文件 输出 。 | 将 处 理 后 的 结果 输出 到 文本 文件 中 
表 输出 将 处 理 后 的 结果 输出 到 数据 库 的 数据 表 中 
输出 根据 处 理 后 的 结果 对 数据 库 中 的 数据 表 进 行 插入 更 新 。 根 据 查询 
插入 /更 新 条 件 中 的 字段 判断 数据 表 中 是 否 存在 相关 记录 , 若 存在 , 则 进行 插 
入 ,否则 进行 更 新 
值 映射 数据 的 映射 
列 转行 将 数据 表 的 列 转 成 数据 表 的 行 
i ARAR ERRAN KE MREENERANE RRENA 
唯一 行 ( 哈 希 值 ) | 从 输入 流 中 去 除 重复 的 数据 ,不 需要 对 输入 流 中 的 数据 进行 排序 
转换 字段 选择 选择 需要 的 字段 ,过 滤 掉 不 要 的 字段 ,也 可 与 数据 库 字 段 对 应 
拆 分 字段 将 一 个 字段 拆 分 成 多 个 字段 
排序 记录 基于 某 个 字段 值 将 数据 进行 升序 或 降序 处 理 
行 转 列 将 数据 表 的 行 转 成 数据 表 的 列 
增加 常量 增加 需要 的 常量 字段 
替换 NULL | 若 某 个 字符 串 的 值 为 NULL, 则 指定 某 个 字符 串 的 值 进行 替换 
设置 值 为 NULL | 若 某 个 字符 串 的 值 等 于 指定 的 值 , 则 将 这 个 字符 串 的 值 设置 为 空 
空 操作 不 做 任何 操作 ,一 般 充当 一 个 占 位 符 
过 滤 记录 根据 条 件 对 数据 进行 过 滤 分 类 
Java 代码 转换 的 扩展 功能 ,编写 Java 脚本 ,对 数据 进行 相应 的 处 理 
脚本 JavaScript 代码 | 转换 的 扩展 功能 ,编写 JavaScript 脚本 ,对 数据 进行 相应 的 处 理 
执行 SQL 脚本 | 执行 SQL 脚本 ,对 数据 进行 相应 的 处 理 
HTTP Client | 通过 一 个 可 以 动态 设 定 参 数 的 基本 网 址 调用 HTTP Web 服务 
查询 流 查询 将 目标 表 读 取 到 内 存 ,通过 查询 条 件 对 内 存 中 的 数据 集 进行 查询 
数据 库 查 询 根据 设 定 的 查询 条 件 对 目标 表 进 行 查询 ,返回 需要 的 结果 字段 
合并 记录 合并 两 个 数据 流 ,并 根据 某 个 关键 字 排序 
排序 合并 合并 多 个 数据 流 , 并 且 数 据 的 行 要 基于 某 个 关键 字 进 行 排序 
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续 表 
转换 类 别 步骤 /控件 相关 说 明 
复制 记录 到 结果 | 将 数据 写 人 正在 执行 的 任务 中 
作业 获取 变量 获取 环境 或 Kettle 变量 
设置 变量 设置 环境 变量 


表 3-2 中 列举 了 一 些 Kettle 转换 功能 常用 的 控件 。 下 面 通过 Kettle 工具 的 转换 实现 将 
一 张 数据 表 中 的 两 个 字段 进行 拼接 ,然后 插入 到 另 一 张 数据 表 中 。 


1. 数据 准备 


创建 一 个 数据 库 personal ,并 在 该 数据 库 中 创建 两 张 数据 表 , 即 数据 表 personal_a 和 数 
PEK personal_ b (数据 表 的 创建 过 程 ,这 里 不 再 袭 述 )。 数 据 表 personal_a 和 数据 表 
personal_b 分 别 如 图 3-18 和 图 3-19 所 示 。 


m+ ea === Pa aa oj 
id sur L A ~ 
| 18 male 


19 female 
18 female 
20 female 
l9 male 
21 female 
20 male 
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` 
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图 3-19 数据 表 personal_b 


2. 打开 Kettle 工具 ,创建 转换 


通过 使 用 Kettle 工具 创建 一 个 转换 field_stitching, 并 添加 “ 表 输 入 ”控件 “JavaScript 
代码 ”控件 “插入 /更 新 ”控件 以 及 跳 连 接线 ,具体 效果 如 图 3-20 所 示 。 


3 field stitching 53 
b +H D - en BR lo ~ 


FAA JavaScriptft 码 插入 /更 新 


上 


3-20 创建 转换 field_stitching 
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3. 配置 “ 表 输入 ”控件 
双击 图 3-20 中 的 “ 表 输入 ”控件 ,进入 “ 表 输入 ”界面 ,具体 如 图 3-21 所 示 。 


B SA lela] = J 
DEER SAA 
数据 库 连 接 Z 
[sa] (r) (wizara) 
iia CZT 
SELECT <values> FROM <table name> WHERE <conditions> š: 
` r 
行 1 列 0 
允许 简易 转换 加 
E sqt 语句 里 的 变量 F] 
Mapas A mag =] 
masa oD 
记录 数量 限制 0 ° 


图 3-21 “ 表 输 入 "界面 


单 击 图 3-21 中 的 “新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 3-22 所 示 。 


*..... ° 


se Result Streaming Cursor 


(au ][ m ] 


图 3-22 MySQL 数据库 连接 的 配置 


单 击 图 3-21 中 的 “获取 SQL 查询 语句 ... "按钮 ,弹出 “数据 库 浏览 器 "窗口 ,展开 field_ 
stitching, 并 选中 “ 表 ” 菜 单 下 的 数据 表 personal_a, 具 体 如 图 3-23 所 示 。 
单 击 图 3-23 中 的 “确定 "按钮 ,弹出 “问题 ?窗口 ,具体 如 图 3-24 所 示 。 
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图 3-23 ”选择 数据 表 personal_a 
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图 3-24 选择 是 否 在 SQL 里 面包 含 字段 名 


单 击 图 3-24 中 的 “是 ”按钮 ,“ 表 输入 "界面 配置 的 最 终 效果 如 图 3-25 所 示 。 


EL SA =m] = 
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执 5 每 - 行 ? 品 
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图 3-25 “ 表 输 入 ”界面 配置 的 最 终 效果 
单 击 图 3-25 中 的 “确定 ”按钮 ,完成 “ 表 输 入 ”控件 的 配置 。 
4. 配置 “JavaScript 代码 ”控件 


双击 图 3-20 中 的 “JavaScript 代码 ”控件 ,进入 “JavaScript 代码 ”界面 ,具体 如 图 3-26 
所 示 。 
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E JavaScript 回回 一 > 
步 要 名 称 JavaScriptft 码 
Java script 88: Java script: 
b Ò Transform S, + | (F Script 1 2 
b Ò Transform C| Ñ| |-/Script here = 
b D Transform 
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‘ | Weg E RBS 9 P9 
*@ 
|f FREE BEH 。 类 型 长 度 。 精度 ER Feldname 或 'Rename to 值 
a 


A 3-26 


“JavaScript 代码 ”界面 


在 图 3-26 的 JavaScript 代码 窗口 中 编写 JavaScript 脚本 代码 ,然后 单 击 “ 获 取 变 量 " 按 
钮 ,在 字段 窗口 的 “改名 为 "字段 处 添加 新 的 字段 名 称 username, 具 体 如 图 3-27 所 示 。 


l Javascriptf 码 eem] 


步 要 名 称 JavaScriptft 码 
Java script 函数 : Java script: 
b O Transform S, + |[ Z Script 1 3 
b E Transform C| " 
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字段 
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图 3-27 配置 “JavaScript 代码 ”控件 


单 击 图 3-27 中 的 “确定 ”按钮 ,完成 “JavaScript 代码 ”控件 的 配置 。 


5. 配置 “插入 /更 新 ”控件 
双击 图 3-20 中 的 “插入 /更 新 ”控件 .进入 


“插入 /更 新 "界面 ,如 图 3-28 所 示 。 


# SAYS. l-le Es 
DEER 插入 /更 新 
数据 库 连 接 [field_stitching = ca j 
目标 模式 aa 
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提交 记录 数量 | 100 ° 
6565638536: FF| 
用 来 查 记 的 关键 字 : 
BEES Hae EN 流 国 的 字段 2 ES 
£ 


更 新 字段 : 

tima me = Er 
G (mme) 
Ee eg Ee 


图 3-28 “插入 /更 新 "界面 


单 击 图 3-28 中 的 “新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 3-29 所 示 。 
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MariaDB 3306 ° 
MaxDB (SAP DB) 
MonetDB BPR: 
root ° 
连接 方式: == 
— sss 
peesi 国 Use Result Streaming Cursor 


E 3-29 MySQL 数据 库 连 接 的 配置 


单 击 图 3-28 中 目标 表 右 侧 的 “浏览 ?按钮 ,弹出 “数据 库 浏览 器 ?窗口 ,展开 field_ 
stitchingl, 并 选中 * 表 ?菜单 下 的 数据 表 personal_b, 具 体 如 图 3-30 所 示 。 
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目 samas 


Ota [m] 


a [3 6eld_stitching1 


D 同义词 (Synonyms) 


图 3-30 选择 要 插入 数据 的 数据 表 personal_b 


单 击 图 3-30 中 的 “确定 ”按钮 ,完成 目标 表 的 选择 ,具体 效果 如 图 3-31 所 示 。 


3 插入 /更 新 [= = J 
3F⁄828F 插入 /更 新 
Me [Sold schingl ”| i) (t.s) [Wizard] 
posa * pua) 
目标 表 | personalb | © (ws 
提交 记录 数量 100 ° 
不 换行 任 全 更 新: E) 
用 来 查询 的 关键 字 : 
£ ara Hare 流 里 的 字段 1 流 里 的 字段 2 EE 
1 


GE ws zx EA 
o r G [rsss] 
(Onar) [æo ][ mo] sa] 


图 3-31 目标 表 personal_b 


单 击 图 3-31 中 的 “获取 字段 ”按钮 ,用 来 指定 查询 数据 需要 的 关键 字 , 这 里 选择 的 是 数 
据 表 personal_b 中 的 id_b 字段 和 输入 流 里 的 id 字段 ,具体 如 图 3-32 所 示 。 

单 击 图 3-32 中 的 “编辑 映射 "按钮 ,弹出 “映射 匹配 ”窗口 ,具体 如 图 3-33 所 示 。 

选中 图 3-33 中 的 “ 源 字段 ”选项 框 中 的 字段 和 “目标 字段 "选项 框 中 的 字段 ,然后 单 击 
Add 按钮 ,依次 将 一 对 对 映射 字段 添加 至 “映射 ?选项 框 中 , 若 “ 源 字段 ?选项 框 的 字段 和 * 目 
标 字 段 ?选项 框 的 字段 相同 , 则 可 以 单 击 * 猜 一 猜 ” 按 钮 .让 Kettle 自动 实现 映射 ,具体 如 
3-34 所 示 。 

单 击 图 3-34 中 的 “确定 ”按钮 ,完成 源 字段 与 目标 字段 的 映射 匹配 ,效果 如 图 3-35 
所 示 。 


Š 


数据 清洗 


自动 选择 目标 amass 加 
隐 若 已 经 匹配 的 源 字 段 [| 隐藏 已 经 匹配 的 目标 字段 


wo Jao | 


图 3-33 “映射 匹配 ”窗口 


AEO LERO || MMO 


图 3-34 配置 源 字段 与 目标 字段 的 映射 匹配 


第 33 Kettle 工具 的 基本 使 用 meim 


3 插入 更 新 Eee) 
DEER 插入 /更 新 
mam [Ee nitinol ` (mm) saa-] wass] 
== * saa. 
EBE personal _b © [pes 
提交 记录 数量 100 ° 
不 执行 任何 更 新 : 回 
用 来 间 疝 的 关键 字 ; 
BEA Hana EEN 该 时 的 闻 委 2 ES 
1 idb m id 


图 3-35 ”字段 映射 匹配 的 效果 


单 击 图 3-35 中 的 “确定 ?按钮 ,完成 “插入 /更 新 ”控件 的 配置 。 
6. 运行 转换 field_stitching 
单 击 转 换 工作 区 顶部 的 号 按钮 ,运行 创建 的 转换 field_stitching, 实 现 将 数据 表 


personal_a 中 的 surname 字段 和 name 字段 进行 拼接 ,并 将 结果 数据 插入 到 数据 表 personal 
_b 中 ,具体 如 图 3-36 所 示 。 


[z field stitching 53 
Pb +H D.D BR FJ 10% ~ 


~ [Ef > 

L: TN JavaScriptft 码 插入 /更 新 
<i n 
执行 结果 口 X 


Š SREM SANEA E s @M 6H Em 拒绝， 错误 激活 

1 FAA 0 0 了 了 0 0 0 0 已 完成 
2 JavaScript 0 Y Ë T 0 0 0 0 0 已 完成 
3 插入 /更 新 0 7 7 7 7 0 0 0 Esse 
*—=—+.Ə ><——— Q. 4 


E 3-36 ”运行 转换 field_stitching 
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从 图 3-36 中 执行 结果 一 栏 的 “步骤 度量 ”选项 卡 中 可 以 看 出 ,“ 表 输入 ”控件 执行 7 行 数 
据 的 写 人 和 输入 操作 ;“JavaScript 代码 ”控件 执行 读 、 写 操作 各 7 行 数据 ;“ 插 入 /更 新 "控件 
执行 读 、 写 以 及 输入 ,输出 操作 各 7 行 数据 。 也 就 是 说 ,“ 插 入 /更 新 "控件 将 从 “JavaScript 
代码 ?控件 的 输入 流 中 读 人 的 7 条 数据 均 写 人 到 数据 表 personal_b 中 。 


7. 查看 数据 表 personal_b 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 personal_b 是 否 已 成 功 插 入 7 条 数据 ,结果 如 图 3-37 
所 示 。 


可 限制 行 第 一 行 : < o 
| 
18 male 

19 female 


18 female 
20 female 
19 male 
21 female 
20 male 


图 3-37 数据 表 personal_b 


从 图 3-37 中 可 以 看 出 ,数据 表 personal_b 中 已 插入 了 数据 ,并 且 username 字段 显示 的 
是 数据 表 personal_a 中 surname 字段 和 name 字段 进行 拼接 后 的 结果 数据 ,因此 可 以 说 明 
我 们 成 功 实现 了 将 数据 表 personal_a 中 的 surname 字段 和 name 字段 进行 拼接 ,并 将 结果 
数据 插入 到 数据 表 personal_b 中 。 


3.4.2 作业 管理 


在 Kettle 工具 中 ,作业 管理 主要 包括 通用 、 邮 件 、 文 件 管理 .条 件 、 脚 本 、 批 量 加 载 等 功 
能 。 下 面 通过 一 张 表 描述 Kettle 作业 功能 常用 的 控件 ,具体 见 表 3-3。 

表 3-3 中 列举 了 一 些 Kettle 作业 功能 常用 的 控件 。 下 面 通过 Kettle 工具 的 作业 发 送 
邮件 。 


表 3-3 Kettle 作业 功能 常用 的 控件 


作业 类 别 步骤 /控件 相关 说 明 
Start 作业 执行 的 开始 
Dummy 作业 执行 的 结束 
通用 作业 使 用 新 的 作业 执行 之 前 已 定义 好 的 作业 
成 功 提示 作业 执行 成 功 
转换 使 用 作业 执行 之 前 已 定义 好 的 转换 流程 
i POP 收 信 通过 设置 好 的 POP 服务 器 地 址 发 送 邮 件 
发 送 邮 件 发 送 作 业 执行 成 功 或 失败 邮件 
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续 表 
作业 类 别 步骤 /控件 相关 说 明 
创建 文件 创建 一 个 新 的 文件 , 若 文件 名 已 存在 , 则 提示 创建 失败 并 退出 
MEEA EEEE EAR ME 
nama 将 源 文 件 中 的 内 容 复 制 到 新 创建 的 文件 中 或 替换 已 存在 的 
文件 管理 文件 
比较 文件 比较 两 个 文件 中 的 内 容 
移动 文件 将 文件 移动 到 另 一 个 文件 夹 中 
解压 缩 文 件 将 作业 文件 进行 解压 或 压缩 操作 
检查 表 是 否 存在 检查 数据 库 中 的 数据 表 是 否 存在 
条 件 
检查 一 个 文件 是 怕 | 检查 指定 的 文件 是 否 存在 
JavaScript 编写 JavaScript 脚本 ,进行 相应 的 数据 处 理 
脚本 Shell 编写 Shell 脚本 ,进行 相应 的 数据 处 理 
sQL 编写 SQL 脚本 ,进行 相应 的 数据 处 理 
MySQL 批量 加 载 将 本 地 文件 中 的 数据 批量 加 载 到 MySQL 数据 库 中 
ma | SQL Server 批量 加 载 | 将 本 地 文件 中 的 数据 批量 加 载 到 SQL Server 数据 库 中 
人 将 MySQL 数据 库 中 的 数据 批量 导出 到 本 地 文件 中 


1. 打开 Kettle 工具 .创建 作业 


通过 使 用 Kettle 工具 ,创建 一 个 作业 send_email. 并 添加 Start 控件 “发 送 邮 件 ” 控 件 、 
“成 功 ” 控 件 以 及 作业 跳 连接 线 , 具 体 效果 如 图 3-38 所 示 。 


ZF send email 3 


aa tpi, 


=Æ o% -~ 


国 Ra 


图 3-38 创建 作业 send_email 


2. 配置 Start 控件 


双击 图 3-38 中 的 Start 控件 ,进入 “作业 定时 调度 ”界面 ,具体 如 图 3-39 所 示 。 
单 击 图 3-39 中 “类 型 ”后 的 下 拉 列 表 框 ,选择 “时 间 间 隔 ” 定 时 ,并 设置 以 秒 计算 的 间隔 
是 10, 以 分 钟 计算 的 间隔 是 0( 即 作业 运行 10 秒 后 发 送 邮 件 ) ,具体 如 图 3-40 所 示 。 
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数据 清洗 
> 作业 定时 调度 28 s= > 作业 定时 调度 le z] 
Job entry name Start Job entry name Start 
重复 : 回 重复 : 回 
SE: FEEN 了 美 型 : | 时 间 间隔 ` 
senso g Drm 10 a 
uwo ss 以 分 钟 计算 的 间隔 : 0 自 
每 天 到 Ello m 12 Ho a 
每 周 :星期 一 ` 每 周 : 星期 一 hd 
sa ë ëB sai B 
(Ore) (aso [wao] 
图 3-39 “作业 定时 调度 ”界面 图 3-40 设置 发 送 邮 件 的 时 间 间 隔 


单 击 图 3-40 中 的 “确定 ”按钮 ,完成 Start 控件 的 配置 。 
3. 配置 “发 送 邮件 "控件 
双击 图 3-38 中 的 “发 送 邮件 "控件 ,进入 “发 送 邮 件 " 界 面 ,具体 如 图 3-41 所 示 。 


r 


口 发 送 闻 件 [= 3 
邮件 作业 名 称 : 发送 邮件 
EE esa 邮件 消息 | 附件 | 
BA 
收 件 人 地 址 ; ° 
pe ° 
mS: ° 
发 件 人 
回复 名 称 ° 
发 件 人 地 址 : e 
回复 地 址 ° 
BZA: ° 
联系 电话 : ° 
Esa 


图 3-41 “发 送 邮件 "界面 


在 图 3-41 中 添加 收 件 人 和 发 件 人 的 相关 信息 .这 里 添加 了 收 件 人 地 址 、 发 件 人 的 回复 
名 称 以 及 发 件 人 地 址 ,具体 如 图 3-42 所 示 。 

单 击 图 3-42 中 的 “服务 器 ?选项 卡 ,具体 如 图 3-43 所 示 。 

在 图 3-43 中 添加 邮件 服务 器 的 相关 参数 和 验证 发 件 人 的 信息 ,具体 如 图 3-44 所 示 。 

在 图 3-44 中 ,邮件 服务 器 与 发 件 人 的 账号 对 应 ,由 于 发 件 人 的 邮件 是 263 企业 邮箱 ,所 
以 SMTP 服务 器 和 端口 号 分 别 填写 smtp. 263. net 和 25。 若 所 填 发 件 人 的 邮箱 是 QQ 邮 
箱 , 则 填写 smtp. qq. com 和 465 (或 587); 若 所 填 发 件 人 的 邮箱 是 网 易 163 邮箱 , 则 填写 
smtp. 163. com 和 25; 若 所 填 发 件 人 的 邮箱 是 其 他 邮箱 , 则 自行 查阅 填写 ,这 里 不 再 袭 述 。 
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日 发 送 闻 件 = B| s= 
邮件 作业 名 称 : 发送 邮件 


AD Esa eS e] 

BA 
收 件 人 地 址 :1145115180@qqcom ° 
mis ° 
mix: ° 

发 件 人 
回复 名 称 swiss ° 
BABE wenyan@itcasten ° 


图 3-42 添加 收 件 人 ,发 件 人 相关 信息 


日 发 送 闻 件 = m = 


邮件 作业 名 称 : 发送 邮件 


地 址 [最 务 串 \ 邮 件 消息 | 附件 | 
邮件 服务 器 
SMTP 服 务 器 : ° 
sos: ° 
验证 
BRP B 
用 户 各 : ° 
a e 
emesi O 
安全 这 接 关 型 [SSL 3 


GJ ë 


图 3-43 “服务 器 ”选项 卡 


口 aas = = 
邮件 作业 名 称 :发 送 部 件 
[地 址 (RSE 邮件 消 息 | 附件 | 
邮件 服务 器 
SMTP 服 务 器 : smtp.263,net ° 
mn: 25 ° 
验证 
用 户 验证 ? 
用 户 名 : wenyan@itcastcn ° 
:ee ° 
使 用 安全 验证 ? 回 
安全 连接 闫 型 [SSL z| 


A 3-44 配置 邮件 服务 器 


数据 清洗 


单 击 图 3-44 中 的 “邮件 消息 ”选项 卡 ,具体 如 图 3-45 所 示 。 


P>" 
部件 作业 名 称 : 发 闫 部件 
TECN 
消息 设置 
信息 里 市 日 期 回 
RA 详 部 件 注释 ? 回 
使 用 HTML 最 件 格式 ? 加 
编 |UTF-8 二 
管理 优 先 级 A 
优先 级 [am = 
重要 [ma 二 
Sensitivity [Normal = 
消息 
主要 e 
En to 
可 » 


图 3-45 “邮件 消息 ”选项 卡 


在 图 3-45 中 多 选 “ 信 息 里 带 日 期 ?"? 和 “使 用 HTML 邮件 格式 ?” 复 选 框 ,设置 发 送 的 邮 
件 信 息 里 带 日 期 ,并 且 发 送 的 邮件 使 用 的 是 HTML 格式 ;在 “消息 ” 框 中 添加 邮件 的 主题 和 


注释 ,具体 如 图 3-46 所 示 。 
o 发 送 闻 件 [ele] s= 
邮件 作业 名 称 : 发送 闻 件 
地 址 [n [86095 S" e] 
消息 设置 
aegram 
Ri 作 寺 得 ? Fl 
使 用 HTML 邮件 格式 ? 
编码 | UTF-8 = 
emera A 
优先 级 EA 二 
m= =a = 
Sensitivity [Normal ` 
xea 
主题 : 测试 邮件 ° 
FE Rate. We se 
[fer [ao |[ wo J 


图 3-46 配置 邮件 消息 
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在 图 3-46 中 单 击 “确定 ?按钮 ,完成 “发 送 邮 件 ? 控 件 的 配置 。 
4. 运行 send_email 作业 


单 击 作 业 工 作 区 顶部 的 号 按钮 ,运行 创建 的 send_email 作业 ,实现 发 送 邮件 的 功能 , 具 
体 如 图 3-47 所 示 。 


图 3-47 运行 send_email 作业 


从 图 3-47 中 各 控件 右上 角 的 绿色 对 色 图 标 可 以 看 出 ,send_email 作业 运行 成 功 。 
5. 查看 邮箱 的 收 件 箱 
通过 查看 QQ 邮箱 的 邮件 ,验证 是 否 收 到 发 送 的 邮件 ,具体 如 图 3-48 所 示 。 


测试 邮件 立 

发 件 人 : zD <wenyan@itcast.cn> 

时 间 : 2019 年 7 月 11 日 (星期 四 ) 上 午 10:38 
BUFA : — p 以 OAL <1145115180@qq.com> 


更 新 行 : 0 

Lines rejected : 0 
Script exist status : 0 
结果 : true 
作业 项 的 路 径 : 
send_email 

send_email : : 开始 : 开始 执行 任务 (2019/07/11 10:37:51.719) 

send_email : : Start : 开始 : 开始 执行 任务 (2019/07/11 10:37:51.723) 

Send_email : : Start : [nr=0, errors=0, exit_status=0, result=true] : 任务 执行 完毕 (2019/07/11 10:38:01.724) 
send_email : : 发 送 邮件 : Followed 无 条 件 的 链接 : 开始 执行 任务 (2019/07/11 10:38:01.725) 


图 3-48 邮件 内 容 


从 图 3-48 中 可 以 看 出 , 收 到 了 发 件 人 wenyan@itcast. cn 的 邮件 ,并 且 邮 件 内 容 包含 主 
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题 注释 以 及 与 作业 相关 的 信息 ,因此 可 以 说 明 我 们 通过 Kettle 工具 的 作业 实现 了 发 送 邮 
件 的 功能 。 


3.4.3 数据 库 连接 


前 面 介 绍 了 Kettle 工具 中 的 转换 管理 和 作业 管理 ,其 中 转换 管理 中 使 用 数据 库 连接 获 
取 数 据 库 数 据 ,而 Kettle 中 的 数据 库 连 接 实际 上 是 数据 库 连接 的 描述 ,也 就 是 实际 建立 数 
据 库 连 接 需要 的 参数 ,实际 数据 库 连 接 只 在 运行 时 才 会 创建 ,因此 ,定义 一 个 Kettle 的 数据 


库 连 接 并 不 会 真正 打开 一 个 数据 库 连 接 。 
由 于 数据 库 的 种 类 有 很 多 ,因此 Kettle 工具 的 数据 库 连接 窗口 包含 多 种 数据 库 类 型 ， 
具体 如 图 3-49 所 示 。 

E ES) 

高 级 连接 名 称 : 

选项 | 

连接 池 L 

mm wiwa 设置 
SEE 
Orade RDB Tooo 
SR naan 
PostgreSQL ° 
Re on le syd REA 
SAP ERP System ° 
Fa i GES] 
Sybase ° 
SybaselQ 了 | aos 
连接 方式 : 1521 ° 
e 
ODBC 用 户 名 : 
oa ° 
JNDI = 

° 


图 3-49 MySQL 数据 库 连接 窗口 


图 3-49 中 , 左 侧面 板 显 示 的 是 “一 般 ”“ 高 级 ”选项 ”连接 池 ? 以 及 “集群 ?标签 , 右 侧面 
板 显示 的 是 与 左 侧面 板 标签 对 应 的 参数 设置 。 下 面 针 对 左 侧面 板 的 标签 进行 详细 介绍 。 


1.“ 一 般 ” 标 签 


单 击 图 3-49 中 的 一般” 标签 ,需要 设置 的 内 容 有 “连接 名 称 ”“ 连 接 类 型 "以 及 “连接 方 
式 ” 等 的 数据 库 参 数 ,具体 设置 规则 如 下 。 
。 连接 名 称 : 指定 一 个 在 转换 或 作业 范围 内 唯一 的 名 称 。 
。 连接 类 型 : 从 数据 库 列 表 中 选择 要 连接 的 数据 库 类 型 。 根 据 选择 数据 库 类 型 的 不 
同 , 需 要 设置 的 连接 方式 和 连接 参数 也 会 不 同 。Kettle 中 使 用 某 个 步骤 或 者 作业 项 
编写 SQL 语句 时 ,编写 的 SQL 语句 的 语法 格式 也 会 有 所 不 同 。 
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。 连接 方式 : 在 连接 方式 列表 中 ,可 以 选择 与 所 选 数据 库 类 型 对 应 的 连接 方式 ,一 般 
使 用 JDBC 连接 ,但 有 的 数据 库 也 使 用 ODBC、JNDI、Oracle 的 OCI 连接 。 

由 于 选择 的 数据 库 不 同 ,因此 对 应 的 图 3-49 中 右 侧 “设置 " 框 中 需要 的 参数 也 不 同 。 
图 3-49 中 显示 的 是 连接 Oracle 数据 库 需 要 设置 的 连接 参数 。 一 般 地 ,常用 的 数据 库 连接 
参数 有 主机 名 称 、 数 据 库 名 称 、 端 口号 .用 户 名 和 密码 。 连 接 参 数 的 具体 介绍 如 下 。 

。 主机 名 称 : 数据 库 服 务 器 的 主机 名 或 者 IP 地 址 。 

。 数据 库 名 称 : 将 要 访问 数据 库 的 名 称 。 

° 端口 号 : 默认 是 选择 的 数据 库 服务 器 的 默认 端口 号 。 

。 用 户 名 和 密码 : 数据 库 服务 器 的 用 户 名 和 密码 。 


2.“ 高 级 "标签 
单 击 图 3-49 中 的 “高 级 "标签 ,进入 “高 级 "标签 的 窗口 ,具体 如 图 3-50 所 示 。 
E =) 
E 
A G 
选项 团 支持 布尔 数据 类 型 
连接 地 Supports the timestamp data type 
kau 回 标 iR 符 使 用 引号 括 起 来 
加 强制 标 闪 符 使 用 小 写字 母 
加 强制 标识 符 使 用 大 写字 母 


Preserve case of reserved words 
[F] Strict NUMBER(38) Interpretation ( For Oracle db only ) 


默认 模式 名 称 .在 没有 其 他 模式 名 时 使 用 . 


请 绽 入 连接 成 功 后 要 执行 的 SQL 滞 名 ， 用 分 号 () 隔 开 : 


[a | mama] ws | 


图 3-50 “高 级 "标签 的 窗口 


在 图 3-50 中 可 以 设置 数据 库 连 接 的 标识 符 、 默 认 模 式 的 名 称 以 及 数据 库 连 接 成 功 后 要 
执行 的 SQL 语句 ,具体 设置 的 含义 如 下 。 

(1) 支持 布尔 数据 类 型 : 对 于 Boolean 数据 类 型 的 数据 ,大 多 数 数据 库 的 处 理 方式 都 不 
同 , 即 使 使 用 一 个 数据 库 的 不 同 版 本 ,也 会 有 所 不 同 。 一 般 的 数据 库 都 不 会 支持 Boolean 类 
型 。 默 认 情 况 下 ,Kettle 使 用 一 个 字符 的 字段 ( 即 char(1)) 的 不 同 值 (Y 或 NARE Boolean 
字段 。 若 勾 选 “支持 布尔 数据 类 型 " 复 选 框 ,Kettle 就 会 为 支持 布尔 类 型 的 数据 库 生 成 正确 
的 SQL 语法 。 

(2) Supports the timestamp data type: 支持 时 间 惟 数据 类 型 , 若 勾 选 该 复 选 框 ,Kettle 
就 会 为 支持 时 间 戳 的 数据 库 生成 正确 的 时 间 类 型 。 

(3) 标识 符 使 用 引号 括 起 来 : 强制 性 地 为 SQL 语句 中 的 所 有 标识 符 ( 列 名 、 表 名 ) 加 双 
引号 。 一 般 地 ,该 选项 主要 用 于 区 分 大 小 写 的 数据 库 。 

(4) 强制 标识 符 使 用 小 写字 母 : 将 所 有 的 标识 符 ( 列 名 和 表 名 ) 转 换 为 小 写 。 


49 


(5) 强制 标识 符 使 用 大 写字 母 : 将 所 有 的 标识 符 ( 列 名 和 表 名 ) 转 换 为 大 写 。 
(6) Preserve case of reserved words: 保存 保留 字 的 大 小 写 格 式 。 
(7) Strict NUMBER(38) Interpretation: 严格 限制 Oracle 中 NUMBER 数据 类 型 取 


值 的 范围 (1 一 38) 。 
(8) 默认 模式 名 称 : 若 不 明确 指定 模式 名 称 ( 有 些 数据 库 中 称 为 目录 ), 则 使 用 默认 的 
模式 名 称 。 


(9) 请 输入 连接 成 功 后 要 执行 的 SQL 语句 : 一 般 用 于 创建 数据 库 连 接 后 ,对 某 些 参数 
进行 修改 ,如 Session 级 的 变量 或 者 调试 信息 等 。 


3.“ 选 项 "标签 
单 击 图 3-49 中 的 “选项 ”标签 ,进入 “选项 "标签 的 窗口 ,具体 如 图 3-51 所 示 。 


B sarte = 
=a 
k 
连接 池 
a 命名 参数 G a 
a 
[ae] 
EE 
| % J 


图 3-51 “选项 "标签 的 窗口 


在 图 3-51 中 可 以 设置 数据 库 的 特定 参数 ,如 数据 库 连接 的 参数 。 为 了 便于 使 用 ,对 于 
某 些 数据 库 ( 如 MySQL) Kettle 工具 提供 了 一 些 默认 的 连接 参数 和 值 。 单 击 * 帮 助 ..." 按 
钮 ,可 以 查阅 对 应 数据 库 的 帮助 文档 。 


4.“ 连 接 池 ”标签 


单 击 图 3-49 中 的 “连接 池 ” 标 签 ,进入 “连接 池 ” 标 签 的 窗口 ,具体 如 图 3-52 所 示 。 
在 图 3-52 中 可 以 设置 连接 池 的 相关 参数 ,该 标签 的 设置 主要 用 于 解决 有 很 多 小 的 转换 
(或 作业 ) 需 要 单独 处 理 和 数据 库 连 接 延 迟 的 问题 ,连接 池 不 会 限制 并 发 的 数据 库 连 接 数量 。 


5.“ 集 群 ”标签 


单 击 图 3-49 中 的 “集群 "标签 ,进入 “集群 ”标签 的 窗口 ,具体 如 图 3-53 所 示 。 

在 图 3-53 中 可 以 设置 集群 的 分 区 数 。 当 一 个 数据 库 不 能 满足 需求 时 ,可 以 使 用 多 个 数 
据 库 处 理 数据 , 即 采 用 数据 库 分 区 技术 分 散 数 据 的 加 载 ,这 样 可 以 将 一 个 大 的 数据 集 分 为 多 
个 小 数据 组 ( 即 分 区 ) ,每 个 分 区 都 保存 在 独立 的 数据 库 中 ,因此 ,采用 数据 库 分 区 技术 可 以 
减少 每 个 数据 表 或 数据 库 的 行 数 。 

注意 : 数据 库 连 接 只 在 运行 转换 或 作业 的 时 候 使 用 。 在 作业 中 ,每 个 作业 项 都 会 打开 
和 关闭 一 个 独立 的 数据 库 连接 。 转 换 也 如 此 ,但 转换 中 的 步骤 是 并 行 执行 的 ,每 个 步骤 都 会 
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图 3-52 “连接 池 ” 标 签 的 窗口 
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图 3-53 “集群 "标签 的 窗口 


打开 一 个 独立 的 数据 库 连 接 ,并 开始 一 个 事务 。 若 转换 中 的 不 同步 又 操作 (更 新 或 插入 数 


据 ) 同 一 张 数据 表 , 就 会 出 现 锁 


和 参照 完整 性 的 问题 。 


为 了 解决 打开 多 个 数据 库 连 接 而 产生 的 问题 ,Kettle 工具 可 以 在 一 个 事务 中 完成 转换 。 
选中 转换 设置 对 话 框 的 选项 “转换 放 在 数据 库 事务 中 ”, 所 有 步骤 里 的 数据 库 连接 都 使 用 同 
一 个 数据 库 连 接 , 若 所 有 步骤 都 正确 , 则 转换 正确 执行 , 方 可 提交 事务 ,否则 回 滚 事务 。 


3.5 ”本章 小 结 


本 章 主要 讲解 了 Kettle 工具 的 相关 知识 ,包括 Kettle 简介 、Kettle 的 下 载 安 装 、Kettle 
基本 概念 以 及 Kettle 的 基本 功能 。 和 希望 读者 通过 本 章 的 学 习 , 可 以 使 用 Kettle 工具 对 ETL 
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数据 进行 相关 的 处 理 。 
3.6 ”本章 习题 

一 、 填空 题 

£ 是 一 款 国 外 免费 开源 的 轻 量 级 ETL 工具 。 

2. Kettle 可 以 在 Windows. 、UNIX 系统 上 运行 ,并 且 是 绿色 无 需 安 装 的 。 

3. Kettle 的 集成 开发 环境 提供 了 一 个 基于 SWT 的 图 形 用 户 界 面 , 主 要 用 于 
ETL 的 开发 。 


4. 一 个 数据 抽取 过 程 主要 包括 创建 一 个 作业 ,并 且 每 个 作业 可 以 包括 多 个 
操作 。 
5. 转换 中 的 步骤 是 通过 连接 的 。 


二 、 判 断 题 
1. Kettle 中 ,数据 的 单位 是 行 ,数据 流 就 是 数据 行 从 一 个 步骤 到 另 一 个 步骤 的 移动 。 
2. Kettle 中 ,一 个 作业 只 包含 一 个 作业 项 。 

3. 转换 跳 是 作业 项 之 间 的 连接 线 , 它 定义 了 作业 的 执行 路 径 。 
4 

5 


.定义 一 个 Kettle 的 数据 库 连 接 , 是 要 真正 打开 一 个 到 数据 库 的 连接 。 
. 作业 执行 的 顺序 由 作业 项 之 间 的 跳 和 每 个 作业 项 的 执行 结果 决定 。 
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三 、 选 择 题 
1. 下 列 设计 原则 ,选项 不 属于 Kettle 的 设计 原则 。 

A. 避免 自 定义 开发 B. 灵活 的 数据 通道 

C. 可 维护 性 与 可 扩展 性 的 原则 D. 只 映射 需要 映射 的 字段 
2. 下 列 类 别 ， 不 属于 作业 管理 。 

A. 邮件 B. 文件 管理 C. 条 件 D. 应 用 
3. 下 列 组 件 中 ， 属于 Kettle 工具 。 

A. Spoon B. Pan C. Kitchen D. Carte 
四 、 操 作 题 


通过 Kettle 工具 ,实现 以 下 功能 : 
(1) 将 一 张 数据 表 的 两 个 字段 进行 拼接 ,然后 插入 另 一 张 数据 表 中 。 
(2) 发 送 邮件 。 
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学 习 目 标 
(1) 掌握 抽取 文本 数据 的 方法 


(2) 掌握 抽取 Web 数据 的 方法 
(3) 掌握 抽取 数据 库 数据 的 方法 


在 数据 清洗 中 ,数据 抽取 主要 是 从 一 个 或 多 个 数据 源 中 获取 所 需 的 数据 。 数 据 抽 取 的 
数据 源 可 以 是 文本 数据 ,Web 数据 以 及 数据 库 数据 。 本 章 将 针对 文本 数据 ,Web 数据 以 及 
数据 库 数据 的 抽取 操作 进行 详细 讲解 。 


4.1 抽取 文本 数据 


在 实际 应 用 中 ,常用 的 文本 文件 类 型 有 两 种 ,分 别 是 TSV 文件 和 CSV 文件 。 本 节 将 针 
对 抽取 TSV 类 型 和 CSV 类 型 的 文本 文件 数据 分 别 进行 讲解 。 


4.1.1 TSV 文件 的 抽取 


TSV 是 Tab-Separated Values 的 缩写 , 即 制 表 符 分 隔 值 。 使 用 制 表 符 分 隔 数据 字段 的 
文件 被 称 为 制 表 符 文件 。 制 表 符 文件 中 的 数据 以 表格 结构 存储 ,每 行 存储 一 条 记录 ,每 条 记 
录 的 各 个 字段 间 使 用 制 表 符 分 隔 。 大 多 数 的 操作 系统 和 常用 文本 编辑 器 中 , 按 一 次 Tab 键 
表示 默认 插入 一 个 制 表 符 。 

一 般 情况 下 , 制 表 符 的 种 类 包含 左 对 齐 式 制 表 符 、 居 中 式 制 表 符 、 右 对 齐 式 制 表 符 、 小 数 
点 对 齐 式 制 表 符 和 竖 线 对 齐 式 制 表 符 等 种 类 。 通 过 设置 不 同 制 表 符 的 位 置 ,在 输入 一 项 数 
据 之 后 , 按 一 下 Tab 键 , 光 标 会 根据 制 表 符 的 设置 在 数据 后 面 插入 制 表 符 。 通 过 制 表 符 分 
隔 的 文本 数据 与 未 使 用 制 表 符 分 隔 的 数据 相 比 ,前 者 更 便于 观察 识别 ,同时 也 便于 对 数据 进 
行 抽取 操作 。 

现 有 一 个 TSV 文件 tsv_extract. tsv, 具体 内 容 如 
图 4-1 所 示 。 

下 面 分 步骤 讲解 如 何 抽取 TSV 文件 tsv_extract. tsv 
中 的 数据 并 保存 至 数据 库 extract 中 的 数据 表 tsv 中 , 具 
体 步 又 如 下 。 图 4-1 TSV 文件 tsv_extract. tsv 
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1. 打开 Kettle 工具 ,创建 转换 
使 用 Kettle 工具 创建 一 个 转换 tsv_extract, 添 加 “文本 文件 输入 ”控件 “ 表 输 出 ”控件 


以 及 Hop 跳 连接 线 , 用 于 实现 TSV 文件 数据 的 抽取 功能 ,具体 效果 如 图 4-2 所 示 。 
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图 4-2 创建 转换 tsv_extract 


2. 配置 “文本 文件 输入 ”控件 
双击 图 4-2 中 的 “文本 文件 输入 "控件 ,进入 “文本 文件 输入 "界面 ,具体 如 图 4-3 所 示 。 
Leks) 


P, 文本 文件 给 入 
DEER 文本 文件 输入 
文件 和、 内 容 | 错误 外 理 | S] FE | 其 他 输出 六 也 
zana * [an] paai 
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[Ca [ ao || mser | 
图 4-3 “文本 文件 输入 ”界面 


单 击 图 4-3 中 的 “浏览 ”按钮 ,选择 要 抽取 的 文件 tsv_extract. tsv, 效 果 如 图 4-4 所 示 。 
单 击 图 4-4 中 的 “增加 ”按钮 ,将 要 抽取 的 TSV 文件 添加 到 转换 tsv_extract 中 ,具体 效 


果 如 图 4-5 所 示 。 
单 击 图 4-5 中 的 “内 容 ” 选 项 卡 , 切 换 到 “内 容 ” 选 项 卡 界 面 ,如 图 4-6 所 示 。 
在 图 4-6 中 清除 分 隔 符 处 的 默认 分 隔 符 “;”, 并 单 击 Insert TAB 按钮 ,在 分 隔 符 处 插入 
一 个 制 表 符 ;取消 勾 选 “ 头 部 ” 复 选 框 , 若 不 取消 ,在 进行 数据 抽取 操作 时 会 排除 文件 第 一 行 


的 数据 。“ 内 容 ” 选 项 卡 的 配置 如 图 4-7 所 示 。 
单 击 图 4-7 中 的 “字段 "选项 卡 , 切 换 到 “字段 "选项 卡 界面 ,如 图 4-8 所 示 。 
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图 4-5 添加 TSYV 文件 至 转换 tsv_extract 中 


在 图 4-8 中 ,根据 TSV 文件 的 内 容 添 加 对 应 的 字段 名 称 , 并 指定 数据 类 型 。 这 里 需要 
注意 的 是 , 制 表 符 可 看 作 由 多 个 空格 组 成 ,因此 ,在 去除 空 字符 串 方式 ? 列 时 ,所 添加 的 字段 
都 应 选择 “不 去 除 空格 ”, 和 否则 进行 抽取 数据 操作 时 会 把 制 表 符 当 作 空格 去 除 ,而 不 能 把 制 表 
符 作 为 分 隔 符 实 现 文本 文件 内 容 的 分 隔 .。“ 字 段 ? 选 项 卡 的 配置 如 图 4-9 所 示 , 

单 击 图 4-9 中 的 “预览 记录 ”按钮 .查看 文件 tsv_extract. tsv 的 数据 是 否 成 功 抽取 到 文 
本 文件 输入 流 中 ,具体 效果 如 图 4-10 所 示 。 

从 图 4-10 中 可 以 看 出 ,文件 tsv_extract. tsv 的 数据 已 经 成 功 抽 取 到 文本 文件 输入 流 
中 , 单 击 “ 关 闭 ” 一 “确定 ?按钮 ,完成 “文本 文件 输入 ”控件 的 配置 。 
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图 4-6 “内 容 ” 选 项 卡 界面 
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ee 和 一 一 一 一 一 
包装 行 ? 回 以 时 间 包 装 的 行 数 1 
分 页 布局 (printout)? |] SFAR [80 


Lao J| mea J wwo |] 


图 4-7 “内 容 " 选 项 卡 的 配置 


图 4-8 “字段 "选项 卡 界面 
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P. 文本 文件 纺 入 Eg 
DEER EHAA 

文件 | 内容 [错误 处 理 | 过 小 F eae] 

flar am m 位 置 长 度 精度 ATXE ¿NR AA Nulif A 去 除 空 字符 惠 方式 “重复 

1 id Integer THESE = 

2 name String 266 s 

3 data Date — yy-MM-dd THESE s 

[amo ] mea |[ mao | 


图 4-9 “字段 "选项 卡 的 配置 


Dra = 

DE 文本 文件 输入 的 数据 (5 rows) 

š id name data 3 

1 1 itcast 2019-04-28 

2 2 hadoop 2019-04-30 

3 3 heima 2019-05-28 

4 4 spark 2019-05-29 

5 5 kettle 2019-05-30 - 

A Á O’) 
图 4-10 预览 数据 


3. 配置 “ 表 输 出 ”控件 
双击 图 4-2 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 "界面 ,具体 如 图 4-11 所 示 。 


间 mat [=IsT = J; 
DEZE siat 
in ~ (a. BE Wizard) 
Piet * [a= 
F. * es) 
提交 记录 数量 1000 ° 
ass A 
DRAE O 
指定 数据 库 闻 良 E 
HERAN 数据 库 闻 段 | 
表 分 区 数据 回 
[Onee] [ao ][ wwa J| sa J 


图 4-11 “ 表 输 出 ”界面 


单 击 图 4-11 中 的 “新 建 "按钮 ,配置 数据 库 连接 (连接 的 数据 库 extract 需 提前 创建 ,这 里 不 
FOR) ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数据 库 连 接 的 配置 具体 如 图 4-12 所 示 。 


Ë 


m HAA 


B serte [= J 
高 级 连接 名 称 : 
选项 
连接 池 extract 
T] 主机 名 称 : 
Native Mondrian localhost ° 
Neoview 
Notas: 数据 库 名 称 : 
OpenERP Server extract ° 
Oracle 
Oracle RDB B ns 
Palo MOLAP Server 3306 ° 
Pentaho Data Services . 
PostgreSQL B 
Redshift 了 | root ° 
连接 方式 : zB: 
*..... ° 
feaa F Use Result Streaming Cursor 
LU mu J| 8 | 


图 4-12 MySQL 数据 库 连接 的 配置 


单 击 图 4-11 中 目标 表 右 侧 的 “浏览 ?按钮 ,指定 输出 目标 表 . 即 数据 表 tsv( 该 表 需 提前 


创建 , 且 表 结构 需 根据 文件 tsv_extract. tsv 中 的 字段 .类 型 进行 创建 ,这 里 不 演示 ), 如 图 4-13 
所 示 。 


sarme E 
ansa | =e 


[Oe] [ao ][ wo |[ so |] 


图 4-13 ”指定 输出 的 目标 表 


色 选 图 4-13 中 的 “指定 数据 库 字 段 ? 复 选 框 ,用 于 将 数据 表 tsv 的 字段 与 文件 tsv_ 
extract. tsv 中 的 字段 进行 匹配 ,具体 如 图 4-14 所 示 。 

单 击 图 4-14 中 的 “数据 库 字 段 ” 选 项 卡 ,具体 如 图 4-15 所 示 。 

单 击 图 4-15 中 的 “输入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,具体 如 图 4-16 所 示 。 
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EE] 


Cao )[ wo |]( sa] 


Be w * 攻 四 
提交 沁 录 数量 1000 ° 
arn 加 
名 略 插 和 错误 器 
指定 数据 库 字 段 团 
+n mp a 
MANE 
£ aR RFR 


(Onet) [amo] hamo.) (asot) 


图 4-15 “数据 库 字 段 ”选项 卡 


data data [aw] 
_ [m0] 
自动 渤 反目 标 amars 回 
隐 蕊 已 经 四 了 E 的 源 字段 隐 芒 已 经 匹配 的 目标 字 仆 
[Emo Jo |[ mse J 


图 4-16 “映射 匹配 ?对 话 杠 


G 


在 图 4-16 中 依次 选中 * 源 字段 "中 的 字段 和 * 目 标 字段 "中 对 应 的 字段 ,再 单 击 Add 按 
钮 ,将 一 对 映射 字段 添加 至 “映射 框 中 , 若 * 源 字段 "中 的 字段 和 * 目 标 字段 ”中 的 字段 相同 ， 
则 可 以 单 击 “ 猜 一 猿 ”按钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 4-17 所 示 。 


自动 选择 目标 自动 选择 源 P 
隐藏 已 经 下 本 的 源 字 段 隐藏 已 经 [IE 的 目标 字段 


EE ][ #-me ][ woo J 


图 4-17 设置 映射 匹配 


单 击 图 4-17 中 的 “确定 "按钮 ,“ 表 输出 "控件 配置 的 效果 图 如 图 4-18 所 示 。 


E COES) 
PRE magia 
masm [ovet -| (pua) (ra) [weas] 
Rens * puo) 
BEE = o Deam 
提交 iDz 数 00 O o ë ěë o 
anz 加 
忽略 插入 错误 C 
Tesis ge E 
+m (BEEF 
5 yz: 
£ | 表 字段 R 
2 name name 
3 data data bd 
(Orap) [mmo] Lamo) see J 


图 4-18 “ 表 输 出 ”控件 配置 的 效果 图 
单 击 图 4-18 中 的 “确定 ”按钮 ,完成 “ 表 输出 ”控件 的 配置 。 
4. 运行 转换 tsv_extract 
单 击 转换 工作 区 顶部 的 贺 按 钮 ,运行 创建 的 转换 tsv_extract, 实 现 将 TSV 文件 中 的 数 
据 抽 取 到 数据 表 tsv 中 ,具体 如 图 4-19 所 示 。 


从 图 4-19 中 执行 结果 的 “步骤 度量 "可 以 看 出 ,“ 文 本 文件 输入 ”控件 输入 5 条 数据 并 写 
入 该 控件 中 ;而 “ 表 输 出 ”控件 读 取 “ 文 本 文件 输入 ”控件 中 的 5 条 数据 并 写 入 该 控件 中 ,最 终 


进行 输出 。 也 就 是 说 ,“ 表 输出 ”控件 将 从 文本 文件 输入 流 中 读 取 的 5 条 数据 均 写 入 数据 表 
tsv 中 。 
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($X tsv_extract 3 
DP +H 1 ey XEIRA FJ 10% -~ 
© — 
R 
X82682 sai 
4 š <: 
热 行 结果 ZX 
目 B 志 | 回执 5 历史 [及 emma" [7 sasmi| [E Metrics| dp Preview data] 
® 
|f DEER 复制 的 记录 行 数 ” 读 5 @A GH Er Ea mm 激活 时 间 
1 文本 文件 输入 0 0 5 5 0 0 0 已 完成 0.0s 
2 #@H sj s| 5 0 5 0 0 0 已 完成 17s 
ee | + 


E 4-19 运行 转换 tsv_extract 


5. 查看 tsv 数据 表 中 的 数据 


通过 SQLyog 工具 ,查看 tsv 数据 表 是 否 已 成 功 插入 
5 行 数据 ,查看 结果 如 图 4-20 所 示 。 

从 图 4-20 中 可 以 看 出 ,tsv 数据 表 中 已 插入 5 行 数 
据 , 说 明成 功 实 现 了 将 TSV 文件 tsv_extract. tsv 中 的 数 
据 抽 取 到 tsv 数据 表 中 。 


4.1.2 CSV 文件 的 抽取 


CSV 是 Comma-Separated Values 的 缩写 , 即 逗 号 分 隔 值 。CSV 文件 是 用 逗号 分 隔 数 
据 字段 的 文件 ,因此 也 被 称 为 逗号 分 隔 值 文件 ,有 了 时 会 使 用 字符 蔡 代 逗号 实现 分 隔 , 因 此 也 
被 称 为 字符 分 隔 文件 。CSV 文件 是 以 纯 文 本 形式 存储 表格 数据 (数字 和 文本 ), 纯 文本 意味 
着 该 文件 是 一 个 字符 序列 。CSYV 文件 可 通过 Excel 打开 ,也 可 通过 txt, Notepad ++ 等 文本 
编辑 器 打开 ,从 而 对 文件 进行 查看 ,编辑 等 操作 。 

CSV 文件 由 任意 数目 的 记录 组 成 ,记录 之 间 以 某 种 换行 符 分 隔 ;: 每 条 记录 由 字段 组 成 ， 
字段 之 间 的 分 隔 符 常见 的 有 逗号 或 制 表 符 。 通 常 ,整个 文件 中 的 所 有 记录 都 有 完全 相同 的 
字段 序列 。 

CSV 作为 数据 转 存 的 一 种 常用 格式 ,有 特定 的 实现 规则 ,具体 包含 以 下 8 点: 

。 文件 开头 不 能 留 空 ,以 “ 行 ”为 单位 。 

。 文件 可 含 或 不 含 列 名 , 若 含有 列 名 , 则 位 于 文件 第 一 行 。 
文件 中 的 一 行 数 据 不 能 跨行 , 行 与 行 间 不 可 存在 空 行 。 
文件 中 以 英文 半角 逗号 ( 即 ",”) 作 为 分 隔 符 , 若 列 为 空 ,也 要 表达 空 列 的 存在 。 

。 文件 中 的 列 内 容 , 若 存在 英文 半角 单 引号 ( 即 *"”) , 则 替换 成 半角 双 引 号 ( 即 “""”) 进 
行 转 义 ,因为 在 抽取 数据 时 ,通过 使 用 半角 双 引 号 “""” 将 所 有 的 字符 串 内 容 引 起 来 。 
° 在 文件 读 写 时 ,引号 和 逗号 操作 规则 可 以 互 逆 。 


图 4-20 tsv 数据 表 
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。 文件 中 的 编码 格式 不 做 限制 ,可 以 是 ASCII, 也 可 以 是 Unicode 或 者 UTF8 等 编码 
格式 。 
。 文件 中 不 支持 数字 或 特殊 字符 。 
如 果 想 实现 抽取 CSV 文件 中 的 数据 ,必须 遵循 以 上 8 项 规则 。 在 抽取 数据 的 过 程 中 ， 
通过 使 用 默认 提供 的 逗号 分 隔 符 或 其 他 分 隔 符 , 抽 取 每 条 记录 中 的 字段 值 。 
现 有 一 个 CSV 文件 csv_extract. csv, {EJH Excel 打开 的 效果 如 图 4-21 所 示 。 


K B c D E A 
CustonerID Gender Age Annual Income (k$) | Spending Score (1-100) 

Male 19 15 39 

2 Male 21 15 81 

3 Fenale 20 16 6 

4 Fenale 23 16 T 

5 Female 31 17 40 

6 Fenale 22 17 76 

kd Female 35 18 6 

8 Fenale 23 18 94 

9 Male 64 19 3 

10 Fenale 30 19 72 

11 Male 67 19 14 

12 Fenale 35 19 99 

13 Fenale 58 20 15 

14 Fenale 24 20 77 

15 Male 37 20 13 

16 Male 22 20 79 

T Fenale 35 21 35 

18 Male 20 21 66 

19 Male 52 23 29 

20 Fenale 35 23 98 ` 

M 4 b csv extract 4 m , 


图 4-21 csv_extract. csv 文件 的 部 分 数据 


下 面 分 步 又 讲解 如 何 抽取 CSV 文件 csv_extract. csv 中 的 数据 并 保存 至 数据 库 extract 
的 数据 表 csv 中 ,具体 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 一 个 转换 csv_extract, 并 添加 “CSV 文件 输入 ”控件 “ 表 输 出 ” 控 
件 以 及 Hop 跳 连接 线 , 用 于 实现 CSV 文件 数据 的 抽取 功能 ,具体 效果 如 图 4-22 所 示 。 


B. 


CSV 文 件 输入 FaH 


A 4-22 创建 转换 csv_extract 


2. 配置 “CSV 文件 输入 "控件 
双击 图 4-22 中 的 “CSV 文件 输入 ”控件 ,进入 “CSV 文件 输入 ”界面 ,具体 如 图 4-23 
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所 示 。 


P. CSV 文件 给 入 [= Wi 


° (azo ]| amsa | mam J meo | 


图 4-23 “CSV 文件 输入 ”界面 


单 击 图 4-23 中 的 “浏览 ”按钮 ,选择 要 抽取 的 文件 csv_extract. csv, 具 体 如 图 4-24 所 示 。 
P, CSV 文 件 绽 入 [= Te rss 


步 要 名 称 CSV 文 件 输入 
HER [CAUsersadmimDesktopicsv-enaractesv | * [sss] 
EE $ (masaa) 
B ° 
° 
° 
ae 


£ | 名 称 类 型 格式 长度 精度 ADHS 小数 点 符号 分 组 符号 “去除 空格 类 型 


° baso ][ #w=e |[ mam J| mo J 
图 4-24 ”选择 要 抽取 的 文件 csv_extract. csv 


单 击 图 4-24 中 的 “获取 字段 "按钮 ,Kettle 自动 检索 CSV 文件 ,并 对 文件 中 的 字段 类 
型 .格式 .长度 、 精 度 等 属性 进行 分 析 . 具 体 效果 如 图 4-25 所 示 。 

单 击 图 4-25 中 的 “预览 ”按钮 ,查看 文件 csv_extract. csv 的 数据 是 否 抽取 到 CSV 文件 
输入 流 中 ,具体 效果 如 图 4-26 所 示 。 

从 图 4-26 中 可 以 看 出 ,CSV 文件 csv_extract. csv 的 数据 已 经 成 功 抽取 到 CSV 文件 输 
入流 中 , 单 击 “ 关 闭 ” 一 “确定 ”按钮 ,完成 “CSV 文件 输入 ”控件 的 配置 。 
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数据 清洗 


` 
P, CSV EHAA l-eks 


PEER CSV 文 件 输入 
文件 名 CAUsers\admin\Desktop\files\csv_extract.csv MEON 


将 文件 添加 到 结果 文件 中 回 
行 号 字段 可 远 ) 
并 发 运行 ? 回 
字段 中 有 回 车 换行 ? 回 
文件 编码 7o 
| 名称 类 型 格式 长度“ 精度。 货币 符号 小数点 符号 “分 组 符号 去除 空格 类 型 < 
Integer M 
String 
Integer 
Annual Income (k$) Integer 


Spending Score (1-100) Integer 


LLIPI 


图 4-25 获取 字段 
ES musim [ele 
步骤 CSV 文 件 输入 的 数据 (100 rows) 
É CustomerID Gender Age Annual Income (k$) Spending Score (1-100) ~ 
1 1 Male 19 15 39 
2 2 Male 21 15 81 
3 3 Female 20 16 6 
4 4 Female 23 16 7 
5 5 Female 31 17 40 
6 6 Female 22 17 76 
z 7 Female 35 18 6 
8 8 Female 23 18 94 
9 9 Male 64 19 3 
10 10 Female 30 19 722 
L 
图 4-26 预览 数据 


3. 配置 “ 表 输 出 ”控件 


双击 图 4-22 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 ”界面 ,具体 如 图 4-27 所 示 。 

单 击 图 4-27 中 的 “新 建 " 按 钮 ,配置 数据 库 连 接 (所 连接 的 数据 库 extract 需 提前 创建 ,这 里 
PEIOR) ,配置 完成 后 单 击 “ 确 认 ? 按 钮 。MySQL 数据 库 连 接 的 配置 具体 如 图 4-28 所 示 。 

单 击 图 4-27 中 目标 表 右 侧 的 “浏览 ?按钮 ,选择 输出 的 目标 表 , 即 数据 表 csv_extract( 该 
表 需 提前 创建 , 且 表 结构 需 根 据 CSV 文件 csv_extract. csv 中 数据 的 字段 和 数据 类 型 进行 
创建 ,这 里 不 演示 ); 勾 选 “ 指 定数 据 库 字 段 " 复 选 框 ,用 于 将 数据 表 csv 的 字段 与 CSV 文件 
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EE l-E] = J 
HESR Sa 
~ [国生 | (F2) [wizard..] 
目标 模式 © (se) 
s= o mo 
提交 记录 数量 1000 ° 
ass P 
BERAS 口 
e aaia] 
Saes] 
表 分 区 数据 回 
[er [ao ][ wao J| sq. | 


图 4-27 “ 表 输 出 界面 


目 数据库 连接 L=] 

高 级 连接 名 称 : 

选项 

连接 池 sson 

连接 类 型: es 

Z] INER 
Native Mondrian localhost ° 
Neoview 
Na 数据 库 名 称 : 
OpenERP Server extract ° 
Oracle ana 
Oracle RDB jise 7 
Palo MOLAP Server 3306 ° 
Pentaho Data Services A 
PostgreSQL 
Redshift 了 | root ° 
连接 方式 : =: 
*..... ° 

Pg Use Result Streaming Cursor 


图 4-28 MySQL 数据 库 连 接 的 配置 


csv_extract. csv 中 的 字段 进行 匹配 ,具体 如 图 4-29 所 示 。 

在 图 4-29 中 选择 “数据 库 字 段 ? 选 项 卡 ,具体 如 图 4-30 所 示 。 

单 击 图 4-30 中 的 “输入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,具体 如 图 4-31 所 示 。 

在 图 4-31 中 依次 选中 “ 源 字段 "中 的 字段 和 “目标 字段 ”中 的 对 应 字段 ,再 单 击 Add(A) 
按钮 ,将 一 对 映射 字段 添加 至 “映射 " 框 中 , 若 “ 源 字段 ”中 的 字段 和 “目标 字段 "中 的 字段 相 
同 , 则 可 以 单 击 “ 猜 一 猿 ” 按 钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 4-32 所 示 。 

单 击 图 4-32 中 的 “确定 ”按钮 ,“ 表 输出 ”控件 的 配置 效果 如 图 4-33 所 示 。 

单 击 图 4-33 中 的 “确定 ”按钮 ,完成 “ 表 输 出 ”控件 的 配置 。 


SEZ mat 

PRE ert [| (Wizara) 

oai * [sm] 

PS (em * [ese] 

提交 记录 数量 1000 ° 
#% 回 
忽略 插入 错误 O 
指定 数据 库 字 段 V 

ara E 

(ansann) 

[ao J| wo J| sa | 


图 4-30 “数据 库 字 段 ”选项 卡 


X 映射 下 配 

RFR 目标 字段 映射 
CustomerID CustomerID 

Gender Gender 

Age Ag 


Annual Income (k$) 
Spending Score (1-100) 


e 
Annual Income (k$) 
Spending Score (1-100) 


自动 选择 目标 
隐 芒 已 经 相隔 的 源 字 段 


amasan 回 
隐语 已 经 [OE 的 目标 字段 


[ao || aao || ao | 


图 4-31 “了 映射 匹配 ”对 话 框 
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BFR 目标 字段 映射 
CustomerID --> CustomerID 
Gender --> Gender 
[sam] aen 
Annual Income (k$) --> Annual Income (k$) 
ED Spending Score (1-100) --> Spending Score (1-100) 
自动 选择 目标 自动 选择 源 
隐藏 已 经 匹配 的 源 字 段 隐藏 已 经 四 本 的 目标 字段 
Lao ][ #—we J 
图 4-32 设置 映射 匹配 
I Sah IE 
PRZE mah 
数据 库 连接 extract 一 
= * asas] 
目标 表 csv © | DB) | 
提交 记录 数量 1000 ° 
asa 回 
忽略 插入 错误 [T] 
指定 数据 库 闻 段 
主 选项 | 数据 库 字 段 
插入 的 字段 
OEZ RFR -| [Ea 
1 CustomerID CustomerID CEA = 
2 Gender Gender 
3 Age Age 
4 Annualincome (k$) Annual Income (k$) 
5 Spending Score (1-100) Spending Score (1-100) - 
o] [wo ]L mao |][ se J 


图 4-33 “ 表 输 出 ”控件 的 配置 效果 
4. 运行 转换 csv_extract 


单 击 转换 工作 区 顶部 的 贺 按 钮 ,运行 创建 的 转换 csv_extract, 实 现 将 CSV 文件 中 的 数 
据 抽取 到 数据 表 csv 中 ,具体 如 图 4-34 所 示 。 

从 图 4-34 中 执行 结果 的 “步骤 度量 "可 以 看 出 “CSV 文件 输入 ”控件 输入 101 条 数据 并 
写 人 该 控件 100 条 数据 (其 中 有 1 条 数据 为 表 头 数据 ) ,而 * 表 输出 控件 读 取 *CSV 文件 输 
入 ”控件 中 的 100 条 数据 并 写 入 该 控件 ,最 终 进 行 输 出 。 也 就 是 说 ,“ 表 输出 ”控件 将 从 CSV 
文件 输入 流 中 读 取 的 100 条 数据 均 写 人 数据 表 csv 中 。 


5. 查看 数据 表 csv 中 的 数据 
通过 SQLyog 工具 ,查看 数据 表 csv 是 否 已 成 功 插入 100 行 数据 ,结果 如 图 4-35 所 示 。 


从 图 4-35 中 可 以 看 出 ,数据 表 csv 中 已 插入 数据 (这 里 只 展示 数据 表 中 的 部 分 数据 )， 
说 明 我 们 成 功 实 现 了 将 CSV 文件 csv_extract. csv 中 的 数据 抽取 到 数据 表 csv 中 。 
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FX csv_extract ©? 


D 7 H Tl e 2 BR M 10% ~ 


P oj I 


CSVXFH8A FaH 


执行 结果 Dx 
Ë a= @ ront Ë= mimi |= | Metrics| ® Preview data| 

® 

[£ smg AMORRAR ā & 5 @M SH BK Pa MRE 

1 CSv 文 件 输入 0 0 10 101 0 0 0 0 已 完成 
2 mai o 10 10 0 10 0 0 0 已 完成 
| F 


3|Female 
4 Female 
5 Female 
6 Female | 
7 Female 
B Female 
9 Male 
10 Female 
11Male 
12|Female 
13 Female 
14 Female 


图 4-35 数据 表 cv 


4.2 抽取 Web 数据 


抽取 Web 数据 主要 是 获取 网 页 上 的 数据 。Web 网 页 上 出 现 的 数据 形式 主要 有 3 种 ， 
分 别 是 HTML 形式 、XML 形式 以 及 JSON 形式 。 本 节 将 针对 抽取 HTML, XML 以 及 
JSON 三 种 形式 文件 中 的 数据 分 别 进行 详细 讲解 。 


4.2.1 HTML 网 页 的 数据 抽取 


HyperText Markup Language. MPK HTML , 即 超 文 本 标记 语言 , 它 包含 了 一 套 标记 标 
签 , 主 要 用 于 创建 和 描述 网 页 。HTML 可 以 以 文档 的 形式 展示 。HTML 文档 中 包含 
HTML 标签 和 纯 文 本 。 其 中 , HTML 标签 是 由 尖 括 号 括 起 来 的 关键 词 , 如 二 html 记 和 
</html>, 二 head 之 和 二 /head 盖 一 body 二 和 二 /body 二 等 ,这 些 标签 通常 以 第 一 个 标签 
(如 过 html 标 签 ) 为 开始 标签 ,第 二 个 标签 (如 过 /html 之 标签 ) 为 结束 标签 的 方式 成 对 出 
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现 。 在 标签 内 部 可 以 定义 id, 用 于 标签 的 唯一 标识 ;也 可 以 定义 class, 用 于 一 组 标签 的 
标识 。 

在 数据 抽取 过 程 中 ,由 于 HTML 网 页 本 身 是 无 结构 化 或 半 结 构 化 的 ,因此 HTML 网 

页 中 的 数据 面临 着 较 大 的 抽取 困难 。 基 于 数据 库 技 术 的 HTML 网 页 抽取 技术 的 研究 经 过 
了 人 工 、 半 自动 化 和 全 自动 化 方法 的 3 个 阶段 。 
。 人 工 方 法 ,通过 程序 员 人 工分 析出 网 页 的 模板 ,借助 一 定 的 编程 语言 ,针对 具体 的 问 
题 生成 具体 的 包装 器 。 
。 半自动 化 方法 ,应 用 网 页 模板 抽取 数据 ,从 而 生成 具体 包装 器 的 部 分 被 计算 机 接管 ， 
而 网 页 模板 的 分 析 仍 然 需 要 人 工 参与 。 
。 全 自动 化 方法 中 ,网 页 模板 的 分 析 部 分 也 交 给 了 计算 机 进行 , 仅 需 要 很 少 的 人 工 
参与 或 完全 不 需要 人 工 参 与 ,因而 更 加 适合 大 规模 、 系 统 化 ,持续 性 的 Web 数据 
抽取 。 
下 面 通过 人 工 方 法 实现 HTML 网 页 数据 的 抽取 , 即 人 工 对 网 页 源码 的 结果 分 析 , 借 
助 编程 语言 ,使 用 正则 表达 式 匹配 HTML 中 的 标签 和 标签 属性 ,将 有 价值 的 数据 抽取 
出 来 。 

这 里 以 抽取 “ 豆 辩 电影 排行 榜 " 网 页 的 超 链接 数据 为 例 , 分 步 又 讲解 如 何 抽取 HTML 
网 页 的 数据 ,并 保存 至 数据 库 extract 中 的 数据 表 html( 该 表 需 要 提前 创建 ,这 里 不 再 袭 述 ) 
中 。 豆 辩 电 影 排行 榜 页 面 的 部 分 内 容 如 图 4-36 所 示 。 


AMER aras wan ez wA = 
— wa Z 

BRAON he ReO Gi 3 RAT 201088 — 2018381 = 

豆 辩 电影 排行 榜 

TENI 分 类 排行 榜 - 


as =. at s= so =s 
用 让 书 / PEEB22(R) | RSE) (I 


2019-03-01 中 国 大 后 ) / EE BIS / 马赫 沙拉 Fa 


un 特 -D SIR: / 反攻 68 / P.J T TE JSE , 同性 =s am FE JE #8 
f: x ia = = 
El 历史 ”战争 EE BS S0 Sk 


kiii 日 9 人 649255 人 评价 ) 


BNB RE 

.03-08( -04-22( 关 国 ) / BS EAN AFA tt MDA S = 
Sasza / puta. 万 EISA / GTE P F-RR0 47 / 3 amat +T RE 
FEIR MIE EAD AA 


图 4-36 豆瓣 电影 排行 榜 页 面 的 部 分 内 容 


实现 抽取 HTML 网 页 的 数据 ,并 保存 至 数据 库 extract 的 数据 表 html 中 ,具体 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 一 个 转换 html_extract, 并 添加 “ 自 定义 常量 数据 ”输入 控件 、 
“HTTP client” 查 询 控 件 和 “Java 代码 ”脚本 控件 ,用 于 实现 抽取 HTML 网 页 的 Web 数据 
的 功能 ,具体 效果 如 图 4-37 所 示 。 
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数据 清洗 


2 html_extract 22 


PTH D-E EE EB E 100% 


图 4-37 创建 转换 html_extract 
2. 配置 “ 自 定义 常量 数据 ”控件 


双击 图 4-37 中 的 “ 自 定义 常量 数据 "控件 ,进入 “ 自 定义 常量 数据 "界面 ,具体 如 图 4-38 所 示 
E AEREE 


步 对 名 称 “ 自 定义 第 量 数 据 

Ce 

[f am am 格式 长 度 。 精度 — 货币 类 型 a a Rem 
— 


A 4-38 


“ 自 定义 常量 数据 "界面 


单 击 图 4-38 中 的 “元 数据 ”选项 卡 ,定义 一 个 字段 常量 filename 并 指定 数据 类 型 
String; 单 击 “ 数 据 ” 选 项 卡 , 添 加 html 形式 数据 所 在 的 URL, BI https://movie. douban. 
com/chart, 具 体 效果 如 图 4-39 所 示 。 


R 自 定义 常量 数据 


步 要 名 称 ，” 自 定义 秆 是 数据 
EE 


# filename 


1 | hapsy/movie doubancomychart 


图 4-39 “ 自 定义 常量 数据 ”控件 配置 的 效果 图 
单 击 图 4-39 中 的 “确定 ”按钮 ,完成 “ 自 定义 常量 数据 ”控件 的 配置 。 
3. 配置 HTTP client 控件 


双击 图 4-37 中 的 HTTP client 控件 ,进入 HTTP web service 界面 ,具体 如 图 4-40 
所 示 。 
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€ HTTP web service [= 器 
FF HTTP client 
Genera Fields| 
Settings 
URL ° 
从 字段 中 获取 URL ? 回 
URL 字段 名 -6 
Encoding (empty means standard) [UTF-8 "° 
Connection timeout 10000 ° 
Socket timeout 10000 ° 
Connection close wait time -1 ° 
Output fields 
结果 字段 名 result ° 
HTTP status code field name ° 
Response time (milliseconds) field name ° 
Response header field name ° 
i 


图 4-40 HTTP web service 界面 


勾 选 图 4-40 中 的 “从 字段 中 获取 URL?” 复 选 框 ;在 “URL 字段 名 ”后 的 下 拉 列 表 中 选 
择 URL 字段 名 , 即 filename; 在 “结果 字段 名 ”处 指定 结果 字段 名 称 , 这 里 选择 默认 的 结果 字 
Pt result, HTTP client 控件 配置 的 效果 ,具体 如 图 4-41 所 示 。 


从 字段 中 荣 取 URL? 贺 
URL FRZ [filename | -$ 
Encoding (empty means standard) [UTF-8 = ° 
Connection timeout 10000 ° 
Socket timeout 10000 ° 
Connection close wait time -1 ° 

Output fields 

ep [sa | ° 
HTTP status code field name ° 


[mo] 


A 4-41 HTTP client 控件 配置 的 效果 图 


单 击 图 4-41 中 的 “确定 ”按钮 ,完成 HTTP client 控件 的 配置 。 
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4. 配置 “Java 代码 ”控件 


双击 图 4-37 中 的 “Java 代码 ”控件 ,进入 “Java 代码 ”界面 ,具体 如 图 4-42 所 示 。 


J Javaft 玛 
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字段 
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“Java 代码 ”界面 


双击 图 4-42 中 的 Code Snippits>*Common use—Main,. š JII Java 脚本 代码 的 主 方法 ， 


即 程序 人 口 ,具体 效果 如 图 4-43 所 示 。 
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六 Implementinit if ne 
> Implement dispos actOutputDone(); 
E ane return taise. 
etRowf 工 -ceoatcouepatRuw(z data outputRovlista.size()); 
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六 putError 
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图 4-43 添加 主 方法 的 代码 


在 图 4-43 中 的 代码 框 编写 抽取 HTML 网 页 数据 的 Java 脚本 代码 ,具体 代码 如 文件 4-1 


所 示 。 


第 4 章 数据 抽取 “misa 


文件 4-1 Processor. class 


数据 清洗 
49 Class.forName ("com.mysql.jdbc.Driver"); 
50 // 获取 连接 对 象 
SE connection= (Connection) DriverManager.getConnection (url, 
52 userName, userpwd); 
53 } catch (Exception e) ( 
54 e.printStackTrace (); 
55 ) 
56 // 要 执行 的 sor 语句 
57 String sql="insert into html (contents) values (?);"; 
58 Preparedstatement stat = (Preparedstatement) connection 
59 +preparestatement (sql); 
60 contents=m.group () .replaceAll ("< [^>] *>",""); 
61 stat.setstring(1, contents); 
62 stat.executeUpdate (); 
63 putRow (data .outputRowMeta, outputRow) 7 
64 f 
65 return true; 
66) 


上 述 代 码 中 ,第 10 一 15 行 代码 声明 输入 的 结果 字段 result、 输 出 的 结果 阶段 contents 
和 数据 库 连接 connection; 第 16 一 28 行 代码 获取 输入 的 结果 字段 和 抽取 到 的 超 链接 数据 ; 
第 30 行 代码 获取 输入 UI( 用 户 界面 ) 的 字段 ;第 32 一 37 行 代码 编写 正则 表达 式 , 用 于 将 输 
入 UI 的 字段 foobar 与 规则 进行 匹配 ;第 38 一 64 行 代 码 查 找 与 规则 匹配 的 数据 ,并 将 匹配 
到 的 数据 保存 至 数据 库 的 html 数据 表 中 。 

单 击 图 4-43 中 的 “字段 ”选项 卡 ,用 于 添加 新 生成 的 字段 ; 单 击 “ 参 数 ” 选 项 卡 ,用 于 传人 
参数 。“ 字 段 ” 选 项 卡 界面 和 “参数 ”选项 卡 界面 如 图 4-44 所 示 。 


字段 、、 参 数 | 消息 步 要 | 目标 步 村 | 


[ze sm”. wam) 目标 纱 对 | 


字段 加 清空 结果 字段 | 命名 参数 : 

£ | 字段 名 žm 长 度 精度 £ se 值 mt 
£ 1 

` iñ 


图 4-44 “字段 ”选项 卡 界面 和 “参数 ”选项 卡 界面 


在 图 4-44 中 的 “字段 ”选项 卡 界面 添加 新 生成 的 字段 contents, 并 指定 数据 类 型 String; 
在 “参数 ”选项 卡 界面 传人 参数 result, 并 指定 值 为 result, 具 体 如 图 4-45 所 示 。 


+ [Sa sessar] 


CES E 
字段 Dresta 


(Orei) 


Ws | 


单 击 图 4-45 中 的 “确定 ” 


图 4-45 配置 生成 字段 contents 和 传 入 参数 result 


按钮 完成 “Java 代码 ”控件 的 配置 。 
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5. 运行 转换 html_extract 
单 击 转 换 工作 区 顶部 的 区 按 钮 ,运行 创建 的 转换 html_extract, 实 现 抽取 HTML 网 页 
的 数据 ,并 将 数据 保存 到 数据 表 html 中 ,具体 如 图 4-46 所 示 。 


(F£ html extract 3 
b oH DDí. en XOJA FJ 10% ~ 


€T 加 


自 定义 常量 数据 HTTP client Java 代码 


‘ + 


执行 结果 口 X 
Ë Bz @ s55* js SERR Z a] Metrics| dp Preview data | 

® 

|i sagt Ramon ü R s MA Si Ek Ee ma ms 时 间 ER (条 记录 /入 ) 
1 自 定 义 常量 数据 0 0 1 0 0 0 0 0 已 完成 0.0s 250 
2 HTTP client 0 1 1 0 0 0 0 0 已 完成 03s 3 
3 Jaa 代码 0 1 66 0 0 0 0 0 已 完成 148s 4 


图 4-46 运行 转换 html_extract 


从 图 4-46 中 执行 结果 的 “步骤 度量 ?可 以 看 出 ,“ 自 定义 常量 数据 ?控件 写 和 人 1 条 记录 ; 
HTTP client 控件 读 取 “ 自 定义 常量 数据 ”控件 中 的 1 条 记录 并 写 入 该 控件 中 ;“Java 代码 ” 
控件 读 取 HTTP client 控件 中 的 1 行 记录 , 写 人 该 控件 66 条 数据 ,并 写 人 数据 表 html 中 。 


6. 查看 数据 表 html 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 html 是 否 已 成 功 插入 66 条 数据 ,查看 结果 如 图 4-47 所 示 。 
从 图 4-47 中 可 以 看 出 ,数据 表 html 中 已 插入 数据 
(这 里 只 展示 数据 表 中 的 部 分 数据 ) ,说明 我 们 成 功 实现 


了 将 抽取 到 的 HTML 网 页 数据 保存 到 数据 表 html 中 。 [EEs e EEE 
4.2.2 XML 文件 的 数据 抽取 DT none 
C] Android 
XML 是 一 种 可 扩展 标记 语言 ,也 是 一 种 元 标记 语 eg 
言 。 所 谓 “ 元 标记 ”, 就 是 开发 者 可 根据 自己 的 需要 自 定 Olew 
义 标记 。XML 是 一 种 很 像 HTML 的 标记 语言 ,但 是 它 aa 
们 也 有 很 大 的 区 别 , 如 XML 被 设计 出 来 ,主要 用 于 传输 Eea 
和 存储 数据 ,其 焦点 是 数据 的 内 容 , 而 HTML 被 设计 出 |D: 
来 ,主要 用 于 显示 数据 ,其 焦点 是 数据 的 外 观 ;XML Hi [Elsa 


标签 是 没有 被 预定 义 的 ,都 是 由 XML 文档 的 创作 者 发 
明 的 ,HTML 中 的 标签 是 预定 义 的 ,其 文档 中 使 用 的 标 
签 必须 是 在 HTML 标准 中 定义 过 的 ,用 户 自己 定义 的 标签 是 不 可 使 用 的 。 

XML 应 用 于 Web 开发 的 多 个 方面 ,但 常用 于 简化 数据 的 存储 和 共享 。 下 面 介绍 一 下 


图 4-47 数据 表 html 
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XML 的 主要 用 途 。 
”XML 可 以 将 数据 从 HTML 中 分 离 。 
如 果 要 在 HTML 文档 中 显示 动态 数据 ,那么 每 当 数据 改变 时 ,都 需要 花费 大 量 时 间 编 
辑 HTML, 这 样 效 率 很 低 。 使 用 XML 可 以 将 数据 存储 在 独立 的 XML 文件 中 ,通过 编程 读 
取 一 个 外 部 的 XML 文件 ,并 更 新 网 页 的 数据 内 容 。 
”XML 可 以 简化 数据 传输 。 
通过 XML 可 在 不 兼容 的 系统 之 间 传 输 数 据 。 现 实生 活 中 ,计算 机 系统 和 数据 库 系统 
存储 的 数据 有 NY 种 形式 ,对 于 开发 者 来 说 ,最 耗 时 间 的 是 在 遍布 网 络 的 系统 之 间 传 输 数 
据 , 将 数据 转换 为 XML 格式 进行 存储 ,大 大 降低 了 交换 数据 的 复杂 性 ,也 便于 数据 被 不 同 
的 程序 读 取 。 
* XML 可 以 简化 数据 共享 。 
XML 数据 是 以 纯 文 本 格式 存储 的 ,因此 XML 提供 了 一 种 独立 于 软件 和 硬件 的 数据 存 
储 方法 ,便于 不 同 应 用 程序 共享 数据 。 
° XML 简化 平台 变更 。 
升级 操作 系统 .服务器 .应 用 程序 以 及 更 新 浏览 器 是 非常 浪费 时 间 的 。 例 如 ,转换 大 量 
的 数据 经 常会 导致 不 兼容 的 数据 丢失 ,而 XML 数据 是 以 文本 格式 存储 的 ,这 使 得 XML 在 
不 损失 数据 的 情况 下 更 容易 扩展 或 升级 到 新 的 操作 系统 、 应 用 程序 以 及 浏览 器 。 
。XML 可 以 使 数据 充分 利用 。 
不 同 的 应 用 程序 可 以 从 HTML 页 面 中 访问 数据 ,也 可 以 从 XML 数据 源 中 访问 数据 ， 
使 得 数据 供 各 种 阅读 设备 (如 掌上 计算 机 、 语 音 设备 .新 闻 阅 读 器 等 ) 使 用 。 
° XML 可 用 于 存储 数据 。 
由 于 纯 文 本 文件 可 用 来 存储 数据 ,因此 可 以 将 大 量 的 数据 存储 到 XML 文件 中 或 数据 
库 中 。 应 用 程序 可 对 数据 进行 读 写 和 存储 ,然后 通过 编写 程序 显示 数据 。 
”XML 可 用 于 创建 新 的 互联 网 语言 。 
互联 网 语言 中 有 很 多 新 的 语言 是 通过 XML 创建 的 ,如 XHTML、WSDL( 用 于 描述 可 
用 的 Web 服务 ) 和 WAP( 手 持 设备 的 标记 语言 )。 
现 有 一 个 XML 文件 ,名 为 xml_extract. xml, 具 体内 容 如 图 4-48 所 示 。 
<?xml version="1.0" encoding="UTE-8"2> 
<AllRows testDescription="1 - simple functionality test"> 
<Rows rowID="1">first row chunk of data 
<Row><v1>1.1.1</v1><v2>1.1.2</v2></Rov> 
<Row><v1>1.2.1</v1><v2>1.2.2</v2></Row> 
</Rows> 
<Rows rowID="2">second row chunk of data 
<Row><v1>2.1.1</v1><v2>2.1.2</v2></Rov> 
<Row><v1>2.2.1</v1><v2>2.2.2</v2></Row> 
</Rows> 
<Rows rowID="3">third row chunk of data 
<Row><v1>3.1.1</v1><v2>3.1.2</v2></Row> 
<Row><v1>3.2.1</v1><v2>3.2.2</v2></Rov> 


</Rows> 
-</AllRows> 


图 4-48 文件 xml_extract. xml 的 内 容 
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下 面 分 步骤 讲解 如 何 抽取 XML 文件 xml_extract. xml 中 的 数据 并 保存 至 数据 库 
extract 的 数据 表 xml 中 ,具体 步骤 如 下 。 


1. 打开 Kette 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 xml_extract, 并 添加 Get data from XML 控件 “ 表 输 出 ” 控 
件 以 及 Hop 跳 连接 线 , 用 于 实现 抽取 XML 文件 中 标签 testDescription、rowID、vl 以 及 v2 
中 的 数据 ,并 保存 至 数据 表 xml 中 ,具体 效果 如 图 4-49 所 示 o 


ZX xml_extract 中 


b +H D. e nD XQJA S 10% ~- 


(B 
FaH 


Get data from XML 


图 4-49 创建 转换 xml extract 


2. 配置 Get data from XML 控件 


双击 图 4-49 中 的 Get data from XML 控件 ,进入 "XML 文件 输入 ”界面 ,具体 如 图 4-50 
所 示 。 


P, XML 文件 输入 = ml 器 


BEER Get data from XML 
文 作 \\ 内 容 ] +E] 其 他 纺 出 字 良 | 
从 字段 获取 XML 源 


XML 源 定义 在 一 个 字段 里 ? 加 

XML 源 是 文件 名 ?器 

以 URL 的 方式 该 取 XML 38 O 
XML 源 字 个 名 ` 


a ° mn) 9) 


远 中 的 文件 和 目录 f HAR 通配符 (正则 表达 式 ) MEASG) SE 
3: 
i 


E 4-50 “XML 文件 输入 "界面 


单 击 图 4-50 中 的 “浏览 ”按钮 ,选择 要 抽取 的 XML 文件 xml_extract. xml, 具 体 如 图 4-51 


所 示 。 
单 击 图 4-51 中 的 “增加 ”按钮 ,将 所 选择 的 文件 路 径 添加 到 “选中 的 文件 和 目录 ”处 , 具 


sl 


ma Riki 


体 如 图 4-52 所 示 。 


METETA gam 
步骤 名 称 Get data from XML 
文件 和 内 容 | 字段 | 其 他 过 出 字段] 
从 字段 获 取 XML 源 
XML 源 定 义 在 一 个 字段 里 ? 回 
XML BEHA? C 
以 URL 的 方式 该 取 XML 38 E 
XML 源 字 段 名 jd 
ZARAR [C Userni Deskop erram | * [mm] [sas] 
正则 表达 式 ° 
EURAS) ° 
选中 的 文件 和 目录 | f | 文件 /目录 通配符 (正则 表达 式 ) 
| r [meo] 
2 [ao |( mam J] wao | 


图 4-51 选择 要 抽取 的 XML 文件 xml_extract. xml 


P, XML ZEHRA leks) 
DERE Get data from XML 
TRC E EEA 
MEREM XML 源 
XML 源 定义 在 一 个 字 积 里 ? 回 
XML 源 是 文件 名 ? F] 
以 URL 的 方式 该 取 XML I E) 
XML 源 字段 名 >] 
ci * [=a] esa) 
正则 表达 式 ° 
TUAE) ° 
选中 的 文件 和 目录 | 区 | 文件/ 目录 通配符 (下 则 表达 式 ) 
1 
| , sel 


图 4-52 添加 XML 文件 xml_extract. xml 至 “选中 的 文件 和 目录 ”处 


单 击 图 4-52 中 “内 容 ” 选 项 卡 ,进入 “内 容 ” 选 项 卡 界面 ,具体 如 图 4-53 所 示 。 


单 击 图 4-53 中 的 “获取 XML 文档 的 所 有 路 径 ” 添 加 循环 读 取 路 径 , 即 /AllRows/ 


Rows/Row, 具 体 效果 如 图 4-54 所 示 。 
单 击 图 4-54 中 的 “字段 ”选项 卡 , 进 入 “字段 ”选项 卡 界面 ,具体 如 图 4-55 所 示 。 
在 图 4-55 中 添加 要 抽取 的 字段 ,具体 如 图 4-56 所 示 。 
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P. XML 文件 给 入 


PEER Get data from XML 


EE REE EA] 


[( mam | [ms | 


图 4-53 “内 容 " 选 项 卡 界面 


P, XML 文件 输入 


== 


DEZ Get data from XML 


文件 内 这 字段 | 其 他 输出 字段 | 


a 4 


编码 |UTF-8 


z] 


考虑 命名 空间 回 

忽 赂 注释 ? 回 

验证 XML? 回 

使 用 标记 回 

忽 赂 空 文件 回 

如 果 没 有 文件 不 要 报告 错误 [7| 


限制 0 


用 于 截取 数据 的 XML 路 径 (大 文件 ) 


图 4-54 添加 循环 读 取 路 径 


B, XML 文件 输入 


SEER Get data from XML 


文件 [pe Fa 其 他 过 出 字段 
[É lem meg 节点 结果 类 型 >m 
` C r 
[El 
[Ca Cao J mam J| mao | 


图 4-55 “字段 "选项 卡 
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mz Riku 


P, XML ZEHRA lele] 
BEE Get data from XML 

文件 | 内 容 FE HP) 
£ |= MEE Ta “mm s p= 
1 testDescription ./-/@testDescription Æ Valeof Sting 
2 rowlD ~/@rowlD Et Value of Integer 
3 vi {vi 节点 Value of String 
4 vw v2 5A Value of String Ë 
(——— F 


图 4-56 添加 要 抽取 的 字段 
单 击 图 4-56 中 的 “确定 ”按钮 ,完成 Get data from XML 控件 的 配置 。 
3. 配置 “ 表 输 出 ”控件 
双击 图 4-49 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 "界面 ,具体 如 图 4-57 所 示 。 


a 表态 出 ele] = J) 
DEZE miat 
~ [s] (rR) (Wizards) 
a * [buson] 
ss * [se 
提交 记录 数量 1000 ° 
= 回 
忽略 插入 错误 O 
指定 数据 库 字 段 固 
Sa E 
表 分 区 数据 回 
[@usal [ao J wwo J sa | 


图 4-57 “ 表 输 出 "界面 


单 击 图 4-57 中 的 “新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 具体 如 图 4-58 所 示 。 

单 击 图 4-57 中 目标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 xml 数据 表 ( 该 表 需 提 
前 创建 , 且 表 结构 需 根据 XML 文件 xml_extract. xml 中 的 数据 字段 和 数据 类 型 进行 创建 ， 
这 里 不 演示 ); 勾 选 “ 指 定数 据 库 字 段 " 复 选 框 ,用 于 将 数据 表 xml 的 字段 与 XML 文件 xml 
extract. xml 中 的 字段 进行 匹配 ,具体 如 图 4-59 所 示 。 

单 击 图 4-59 中 的 “数据 库 字 段 ” 选 项 卡 ,进入 “数据 库 字 段 "选项 卡 界面 ,具体 如 图 4-60 
所 示 。 

单 击 图 4-60 中 的 “输入 字段 映射 "按钮 .弹出 “映射 匹配 ”对 话 框 ,如 图 4-61 所 示 。 

在 图 4-61 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 对 应 的 字段 , 单 击 Add 按钮 ， 
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EP L zJ 
高 级 
Em 
连接 邮 
集群 设置 
主机 名 称 : 
localhost ° 
数据 库 名 称 : 
extract ° 
mr 
3306 ° 
BPZ: 
root ° 
z 
ceseco ° 
Use Result Streaming Cursor 
k 
图 4-58 MySQL 数据 库 连接 的 配置 
EE Gelz) 
DEZE mat 
数据 库 连 接 |extract ”| (i (WR) [Wizard] 
Ba o maa) 
ass mn -ma 
提交 记录 数量 1000 ° 
m 
忽略 插入 错误 O 
措 定 数据 库 字 银团 
HERRN MEEF) 
omg F) 
IRF =e 
(Oner) [ao J wso J sa |] 


A 4-59 ”指定 输出 的 目标 表 


将 一 对 映射 字段 添加 至 “映射 " 框 中 , 若 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 相同 , 则 可 
以 单 击 “ 猜 一 猿 ” 按 钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 4-62 HZR o 

单 击 图 4-62 中 的 “映射 匹配 ”对 话 框 中 的 “确定 ”按钮 .“ 表 输出 "界面 最 终 显示 的 效果 如 
图 4-63 所 示 , 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 出 ”控件 的 配置 。 


4. 运行 转换 xml_extract 


单 击 转换 工作 区 顶部 的 贺 按 钮 ,运行 创建 的 转换 xml_extract, 实 现 将 XML 文件 中 的 
数据 抽取 到 数据 表 xml 中 ,具体 如 图 4-64 所 示 。 


mB 


图 4-60 “数据 库 字 段 ”选项 卡 


图 4-61 “映射 匹配 ”对 话 框 


testDescription --> testDescription 
rowlD --> rowID 
vi -> vl 


3 v2 --> v2 


nmass 回 
隐藏 已 经 四 了 的 目标 字段 


[neo )[ #-me ][ msg ] 


图 4-62 设置 映射 匹配 


从 图 4-64 中 执行 结果 的 “步骤 度量 ”可 以 看 出 ,Get data from XML 控件 写 入 6 条 输入 
并 输入 该 控件 ,而 “ 表 输 出 ”控件 读 取 Get data from XML 控件 中 的 6 条 数据 并 写 入 该 控件 ， 
最 终 进行 输出 。 也 就 是 说 ,“ 表 输出 ”控件 将 从 Get data from XML 流 中 读 取 的 6 条 数据 写 
入 数据 表 xml 中 。 


5. 查看 数据 表 xml 中 的 数据 
通过 SQLyog 工具 ,查看 数据 表 xml 是 否 已 成 功 插入 6 条 数据 ,查看 结果 如 图 4-65 所 示 。 
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nasa, sess ` [===] (2s) (wizara) 
e y 
[eso] 

° 


目标 表 xml ° 
提交 记录 数量 1000 

RER 
忽略 插入 错误 O 
指定 数据 库 字 银 [7] 


DER mg+a 


图 4-63 “ 表 输 出 ”界面 最 终 显 示 的 效果 


SE xml_extract Z 


口 - 电 必 依 


ege FJ 10% ~ 


Get data from XML mat 


执行 结果 


Ë B= @ nnne [Z SERE [7 tem] [E Metrics] dp Preview data] 


1 - simple functionality test 


1 - simple functionality test 


1 - simple functionality test 


1 - simple functionality test 


1 - simple functionality test 
1 - simple functionality test 
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83 


84 


从 图 4-65 中 可 以 看 出 ,数据 表 xml 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 将 XML 文件 xml 
_extract. xml 中 标签 testDescription.rowID.v1 以 及 v2 中 的 数据 抽取 到 数据 表 xml 中 。 


4.2.3 JSON 文件 的 数据 抽取 


JSON(JavaScript Object Notation. JS 对 象 标记 ) 是 一 种 轻 量 级 的 数据 交换 格式 。 它 是 
基于 ECMAScript (欧洲 计算 机 协会 制定 的 js 规范 的 一 个 子 集 , 从 JavaScript 脚本 语言 中 
演变 而 来 ,采用 完全 独立 于 编程 语言 的 文本 格式 存储 和 表示 数据 。 由 于 JSON 有 简洁 、 清 晰 
的 层次 结构 ,因此 使 得 JSON 成 为 理想 的 数据 交换 语言 。JSON 易于 程序 开发 者 阅读 和 编 
写 , 同 时 也 易于 机 器 解析 和 生成 .并 有 效 地 提升 网 络 传输 的 效率 。 

需要 注意 的 是 ,JSON 是 一 种 文本 数据 交换 格式 ,而 并 非 编程 语言 ,其 语法 只 支持 字符 
串 ,数字 (整数 或 浮 点 数 ) ,布尔 值 、null 以 及 对 象 和 数组 等 类 型 。 常 用 的 类 型 是 对 象 和 数组 。 
对 象 是 使 用 花 括 号 ( 即 {)) 括 起 来 的 内 容 , 数 据 结 构 为 {keyl: valuel,key2: value2, +} , 7E 
面向 对 象 的 语言 中 ,key 为 对 象 的 属性 ,value 为 对 象 的 值 , 键 名 可 用 整数 和 字符 串 表 示 , 值 
的 类 型 可 以 是 任意 类 型 ;数组 是 使 用 方 括号 ( 即 [ ]) 括 起 来 的 内 容 ,数据 结构 为 ["java"， 
"javascript",... ] 的 索引 结构 , 值 的 类 型 可 以 是 任意 类 型 。 

现 有 一 个 JSON 文件 ,名 为 json_extract. json, 部 分 内 容 如 图 4-66 所 示 o 


m 
l "status": "ok", 
1 "response": ( 
n "submi 


"timestamp": "2011-11-21 09:21:53", 

"user_agent": "Mozilla/5.0 (windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0", 
"remote_addr": "192.168.1.1", 

"payment_status": "", 

"data": T 


"field": "13776121", 
"value": *Baylor pallas" 


"field": "13776401", 
"value": "CHE™ 


21 "field": "13777966", 
22 "value": "John Doe” 


E 4-66 文件 json_extract. json 的 部 分 内 容 


下 面 分 步骤 讲解 如 何 抽取 JSON 文件 json_extract. json 中 的 数据 并 保存 至 数据 库 
extract 中 的 数据 表 json 中 ,具体 步骤 如 下 。 


1. 打开 Kette 工具 .创建 转换 


使 用 Kettle 工具 创建 转换 json_extract, 并 添加 JSON input 控件 “ 表 输 出 ?控件 以 及 
Hop 跳 连 接线 ,用 于 实现 抽取 JSON 文件 中 key {EX id, field 和 value 的 数据 ,并 保存 至 数 
据 表 json 中 ,具体 效果 如 图 4-67 所 示 。 
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2 json_extract 2 
P 7 H Ll e 2 涪 民 与 民 Æ 10% -~ 


回 一 加 > 一 图 


JSON input JSON input 2 Jah 


图 4-67 创建 转换 json_extract 


2. 配置 JSON input 控件 
双击 图 4-67 中 的 JSON input 控件 ,进入 “JSON 输入 ”界面 ,如 图 4-68 所 示 。 


f 罗 JSON 输入 lele] = | 
WEER JSON input 
文件 、、 内 容 | 字段 | 其 他 输出 字段 | 
从 字段 获取 源 
源 定义 在 一 个 字 各 里 ? 加 
AFRE ` 
源 是 一 个 文件 名 ?器 
Muran E 
Do not pass field downstream: E] 
NRA [aa 
正则 表 太 式 e 
正则 表达 式 Q# 失 ) ° 
EPE ¿ | 文件 路径。 通配符。 MEA) ER 包含 了 目录 
: eo) 
— 
[er mee [map]. sag.) 


图 4-68 “JSON 输入 ”界面 


在 图 4-68 中 单 击 “浏览 ?按钮 ,选择 要 抽取 的 JSON 文件 json_extract. json, 如 图 4-69 
所 示 。 

在 图 4-69 中 单 击 “ 增 加 ”按钮 ,将 所 选择 的 文件 添加 到 “选中 的 文件 ”处 ,具体 效果 如 
图 4-70 所 示 。 

在 图 4-70 中 单 击 “字段 ?选项 卡 , 进 入 "字段 ?选项 卡 界面 ,如 图 4-71 所 示 。 

在 图 4-71 中 添加 要 抽取 的 数据 字段 (这 里 采用 分 层 抽取 数据 字段 , 先 抽取 id 和 data 字 
段 ,再 从 data 字段 中 抽取 field 和 value 字段 ) ,具体 配置 如 图 4-72 所 示 。 

在 图 4-72 中 单 击 “确定 ?按钮 ,完成 JSON input 控件 的 配置 。 

双击 图 4-67 中 的 JSON input 2 控件 ,进入 “JSON 输入 ”界面 ,如 图 4-73 所 示 。 

在 图 4-73 中 勾 选 “ 源 定 义 在 一 个 字段 里 ?” 复 选 框 ;在 “从 字段 获取 源 ” 后 的 下 拉 列 表 中 


数据 清洗 


E, JSON 输入 lela] 
步 又 名 称 JSON input 
文件 和、 内 容 | 字 段 | 其 他 输出 字段 | 
从 字段 获取 源 
源 定义 在 一 个 字段 里 ?加 
从 字段 获取 源 - 
源 是 一 个 文件 名 ? 占 
以 Url 获取 源 ? 问 


Do not pass field downstream: E] 


文件 或 路 径 CAUsers\admin\Desktop\json_extractjson ° [amw] (duse) 
正则 表达 式 ° 
TENRA) ° 
选中 的 文件 | 孝文 件 /路 径 BEA BRAG) ER 包 合 子 目录 
1 
= lep) 
EE = 
[azo ][ mam ][ wao ] 
图 4-69 选择 要 抽取 的 json_extract. json 文件 

B, JSON 输入 lle] 


步骤 名 称 JSON input 


诺 了 内 容 | 字 委 | 其 他 输出 字段] 


从 字段 获取 源 
源 定义 在 一 个 字段 里 ? 


从 字段 区 取 源 


源 是 一 个 文件 名 ? D) 
LAUrlš28038? O 


Do not pass field downstream: E] 


文件 或 路 径 


正则 表达 式 


正则 表达 式 (排除 ) 


° 


选中 的 文件 [ Z 
1 
a 


[£ | 文件 路径 
CAUsers\admin\Desktop\json_extractjson 
"| 


EE 


(Onee) 


图 4-70 添加 文件 json_extract. json 


选择 字段 名 , 即 data, 具 体 如 图 4-74 所 示 。 


在 图 4-74 中 单 击 “字段 ?选项 卡 , 进 入 "字段 ?选项 卡 界面 ,如 图 4-75 所 示 。 
在 图 4-75 中 添加 从 字段 data 中 抽取 的 field 和 value 字段 .具体 配置 如 图 4-76 所 示 。 
在 图 4-76 中 单 击 “确定 ”按钮 ,完成 JSON input 2 控件 的 配置 。 
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步骤 名 称 JSON input 


文件 内容 [F tae] 
和 名称。 路径 ”类 型 “格式 KE 精度 Am +m A 去 除 空 字符 的 方式 。 重复 


图 4-71 “字段 ”选项 卡 界面 


r 
E, JSON 输入 


步 要 名 称 JSON input 
文件 Ae [FA eR] 


图 4-72 抽取 id data 字段 的 配置 


B, JSON 输入 cga) 


步 要 名 称 JSON input 2 


文件 、、 内 容 | 字段 | 其 他 输出 字段 | 
从 字段 获取 源 


源 定义 在 一 个 字段 里 ? 加 
从 字段 获取 源 


源 旺 一 个 文件 名 ? 品 
Muria O 


Do not pass field downstream: E] 
See © (ama) puso) 

正则 表达 式 ° 
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amei zame mou manae ER basa 
3; 


图 4-73 “JSON 输入 "界面 


Š 


数据 清洗 


B, JSON 输入 l = x 
步 要 名 称 JSON input 2 
XE SZ] =6;] 其 他 坊 出 字段 | 
AFERRA 
源 定 义 在 一 个 字 良 里 ? 回 
从 字 积 获取 源 [data | =. 
aenea Fl 
MURR? E 
Do not pass field downstream: 回 
文件 或 路 径 je [ama] [sg 
正则 表达 式 
ENFER ° 
选中 的 文件 | 差 ， 文件 路径。 mm; MS ER 
4 = 
.—— es E (So) 
显示 文件 名 (S)-- (S86) 
Kua) reo) | man ][ maj 
LU J 
图 4-74 从 字段 获取 源 的 配置 
ERT CEES) 


步 要 名 称 JSON input 2 
Si [Ae F eRe] 
£ am me sm mt ”长度 精度 AT 十进制 A 去 除 空 字 符 的 方式 重复 


[aso | msm |[ mo] 


图 4-75 “字段 "选项 卡 界面 


E, JSON 输入 


步 要 名 称 JSON input 2 
文件 [内 容 停 殴 \\ 其 他 给 出 字 良 | 
£ | 名称” 路径 类 型 ”格式 长 度 精度 s HËM A 去除 空 字符 的 方式 


图 4-76 配置 抽取 的 field 和 value 字段 
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3. 配置 “ 表 输 出 ”控件 
双击 图 4-67 中 的 “ 表 输出 ”控件 ,进入 “ 表 输出 ”界面 ,具体 如 图 4-77 所 示 。 


N 


PET [= 加 
DEER mah 
jpn ”se) ee Wear) 
e. © se 
ses “区 四 
提交 记录 数量 1000 ° 
ass 加 
BEAR 器 
指定 数据 库 字 段 回 
HEN midges 
表 分 区 数据 回 
(Onee) LaaojLse J 


图 4-77 “ 表 输 出 "界面 


在 图 4-77 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 4-78 所 示 。 


B 数据 库 连 接 = 

ma 连接 名 称 : 

选项 

连接 池 ——— 

集群 e= 
主机 名 称 
localhost ° 
数据 库 名 称 : 
extract ° 
#05 
3306 ° 
用 户 名 : 
root ° 
biza 
wee o O 
Use Result Streaming Cursor 

[as | 
Ca 
d 


A 4-78 MySQL 数据 库 连接 的 配置 


单 击 图 4-77 中 目标 表 右 侧 的 “浏览 ?按钮 ,选择 输出 的 目标 表 , 即 数据 表 json( 该 表 需 提 
前 创建 , 且 表 结构 需 根据 json_extract. json 中 的 数据 字段 和 数据 类 型 进行 创建 ,这 里 不 演 
示 ); 勾 选 “指定 数据 库 字 段 " 复 选 框 ,用 于 将 数据 表 json 的 字段 与 JSON 文件 json_extract. 
json 中 的 字段 进行 匹配 ,具体 如 图 4-79 所 示 。 


mO 数据 清洗 


EE] 


fl 
回 
K 


DEER ”去 给 出 
数据 库 连 接 extract 


目标 模式 


| 
: 


BES json 
提交 记录 数量 1000 

ass 回 
DREAS 
指证 数据 库 字 银团 


EEC 


表 分 区 数据 回 
e= -le 
每 人 月 分 区 数据 加 


[azo ] mo ]L sq. | 


图 4-79 指定 输出 的 目标 表 


在 图 4-79 中 单 击 "数据 库 字 有 段 " 选 项 卡 ,进入 “数据 库 字 段 " 选 项 卡 界面 ,如 图 4-80 所 示 。 


Ta 表态 出 Eram) 
DEZ TEH 
aars [sess -9 
目标 模式 © (ie) 
BRS json © [sea 
提交 记录 数量 1000 ° 
anz 回 
名 略 插 入 错误 C 
指定 数据 库 字 段 团 
+m masa 
aa 
[mem mem EE 
EE 
2 (ume ese.) 


图 4-80 “数据 库 字 段 ”选项 卡 界面 


在 图 4-80 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,如 图 4-81 所 示 。 


沽 mesum 
m= 目标 字段 映射 
id id 
di field 
faa Ps [sss] 
value ED 
自动 选择 目标 emassa A 
[ me) ][ wo] 


图 4-81 “映射 匹配 ”对 话 框 
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在 图 4-81 中 依次 选中 * 源 字段 "中 的 字段 和 “目标 字段 ?中 对 应 的 字段 , 单 击 Add 按钮 ， 
将 一 对 映射 字段 添加 至 “映射 " 框 中 。 若 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 相同 , 则 
可 以 单 击 “ 猜 一 猿 ” 按 钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 4-82 所 示 。 


lele] = 


映射 

id --> id 

field --> field 
value --> value 


自动 选择 目标 emasa A 
隐藏 已 经 匹配 的 源 李 段 隐藏 已 经 匹配 的 目标 字段 


[azo || w-me | 


图 4-82 设置 映射 匹配 


在 图 4-82 中 单 击 “映射 匹配 ?对 话 框 中 的 “确定 按钮“ 表 输出 ?界面 最 终 显 示 的 效果 如 
图 4-83 所 示 。 


EE i] = 
DEZE math 
WISE aaa 1 [s] BE (Wizara) 
mas * [pua] 
om ME 
提交 记录 数量 1000 ° 
asa 回 
忽略 插入 错误 O 
指定 数据 库 闻 段 团 
DER [BEEF 
插入 的 字段 : 
é| msm ara [aasa] 
1 fid id 
-E =m EX 
3 | value value 
(Onee) [ao |[ mso |[ sa | 


图 4-83 “ 表 输 出 ”界面 最 终 显示 的 效果 
在 图 4-83 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 出 ”控件 的 配置 。 
4. 运行 转换 json_extract 
单 击 转换 工作 区 顶部 的 区 按钮 ,运行 创建 的 转换 json_extract, 实 现 将 JSON 文件 中 的 
数据 抽取 到 数据 表 json 中 ,具体 如 图 4-84 所 示 。 
从 图 4-84 中 执行 结果 的 “步骤 度量 ?可 以 看 出 ,JSON input 控件 输入 2 条 数据 并 写 入 该 
控件 中 ;JSON input 2 控件 读 取 JSON input 控件 的 2 条 数据 ,从 这 2 条 数据 的 data 字段 中 


共 获 取 6 条 数据 作为 输入 并 写 入 该 控件 中 ;“ 表 输出 ”控件 读 取 JSON input 控件 的 两 条 数 
据 , 从 这 两 条 数据 的 data 字段 中 共 获 取 6 条 数据 作为 输入 并 写 信 该 控件 中 。 也 就 是 说 ,“ 表 


数据 清洗 
($X json extract 5&3 
>O- -00e ZEE FJ 10% ~ 
d O 
a -加 
JSON input JSON input 2 Tah 
+ 7 
执行 结果 口 X 
BË atO nnne je SEER 人 四 | 攻 Metrics| dp Preview data| 
® 
£ DEER 复制 的 记录 行 数 读 写 输入 输出 更 新 拒绝 错误 激活 时 间 速度 (条 记录 / 秒 ) 
1 JSON input o 0 2 2 0 o 0 0 已 完成 00s 44 
2 JSON input2 0 £ 6 6 0 0 0 0 已 完成 Ols 61 
3 Wat 0 6 6 0 6 0 0 0 已 完成 03s 17 
ç y 


图 4-84 运行 转换 json_extract 
输出 ?控件 从 JSON input 2 流 中 读 取 的 6 条 数据 均 写 人 数据 表 json 中 。 
5. 查看 数据 表 json 中 的 数据 
通过 SQLyog 工具 ,查看 数据 表 json 是 否 已 成 功 插入 6 条 数据 ,查看 结果 如 图 4-85 所 示 。 


5943476713776401 CHE 


5943476713777966 [John Doe 
59474875/13776121 Healthsouth, 
59474875 13776401 [Pneumonia 
5947487513777966 Jane Doe 


图 4-85 数据 表 json 


从 图 4-85 中 可 以 看 出 ,数据 表 json 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 将 JSON 文件 
json_extract. json 中 key {ÈX id, field 和 value 的 数据 抽取 到 数据 表 json 中 。 


4.3 抽取 数据 库 数 据 


数据 库 (Database) 是 按照 数据 结构 组 织 ,存储 和 管理 数据 的 仓库 。 在 信息 化 社会 ,充分 
有 效 地 管理 和 利用 各 类 信息 资源 ,是 进行 科学 研究 和 决策 管理 的 前 提 条 件 。 数 据 库 共有 两 
种 类 型 ,分 别 是 关系 型 数据 库 和 非 关 系 型 数据 库 。 其 中 关系 型 数据 库 有 MySQL, Oracle 及 
SQL Server 等 数据 库 , 非 关系 型 数据 库 有 MongoDB, Redis 及 HBase 等 数据 库 。 本 节 将 对 
关系 型 数据 库 和 非 关 系 型 数据 库 的 数据 抽取 分 别 进行 详细 讲解 。 


4.3.1 抽取 关系 型 数据 库 的 数据 
在 传统 的 大 型 企业 中 ,业务 系统 大 多 采用 Microsoft SQL Server 数据 库存 储 数据 ,而 数 
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据 仓库 的 缓存 层 则 采用 MySQL 数据 库 缓 存 数据 。 在 实际 工作 中 ,我 们 会 通过 数据 仓库 对 
业务 系统 产生 的 数据 进行 分 析 , 因 此 需要 将 业务 系统 的 数据 从 Microsoft SQL Server 数据 
库 抽取 到 数据 仓库 缓存 层 ( 即 MySQL 数据 库 ) 中 ,然后 进行 相关 的 数据 分 析 。 

现 有 一 个 数据 表 , 名 为 student( 存 在 于 Microsoft SQL Server 数据 库 中 , 需 读者 提前 创 
建 ), 具 体内 容 如 图 4-86 所 示 。 


图 4-86 ”数据 表 student 


下 面 分 步骤 讲解 如 何 抽取 数据 表 student 的 数据 保存 至 MySQL 数据 库 的 数据 表 
student_mysql 中 ,具体 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 mssqlL_mysql, 并 添加 * 表 输入 "控件 “ 表 输 出 ?控件 以 及 Hop 
跳 连 接线 ,具体 效果 如 图 4-87 所 示 。 


r 
l: 


mssql_mysql 53 
b +H DD - en XOJA 时 10% ~ 


a 
mA Tah 


A 4-87 创建 转换 mssql mysql 


2. 配置 “ 表 输 入 ”控件 


双击 图 4-87 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 4-88 所 示 。 

在 图 4-88 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 ( 注 : 配置 数据 库 连 接 前 需 将 jtds-1. 3. 1. jar 
驱动 包 添加 至 Kettle 安装 包 的 lib 目录 下 ) ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数据 库 
连接 的 配置 如 图 4-89 所 示 。 

在 图 4-88 中 的 SQL 框 中 编写 查询 数据 表 student 的 SQL 语句 ,然后 单 击 “ 预 览 ?按钮 ， 
查看 数据 表 student 的 数据 是 否 成 功 从 SQL Server 数据 库 中 抽取 到 表 输 入 流 中 ,具体 如 
图 4-90 和 图 4-91 所 示 。 


E SAA = = 
PEZE SEA 
x [| (Wizara..] 
SQL 
| 获取 SQ 查询 语句 


SELECT <values> FROM <table name> WHERE <conditions> y 
‘ + 


行 1 列 0 


图 4-88 “ 表 输 入 "界面 


B 数据 库 连 接 z 
ww 
高 级 连接 名 称 : 
gm 
连接 池 [一 
ki Heen: e= 
Ingres VectorWise z] ENER 
Intersystems Cache localhost ° 
KingbaseES 
panees 数据 库 名 称 
MS Access mssql_mysql ° 
MS SQL Server (Native) E TAEI 
MariaDB 
MaxDB (SAP DB) 
MonetDB umbes 
MySQL -| 1433 ° 
连接 方式: 用 户 名 : 
sa ° 
ODBC == 
Nat ...... ° 
~ to Separate Schema and Table 
Ç 


E 4-89 MySQL 数据 库 连接 的 配置 


从 图 4-91 中 可 以 看 出 ,数据 表 student 的 数据 已 经 成 功 从 SQL Server 数据 库 中 抽取 到 
表 输 入 流 中 , 单 击 “ 关 闭 ” 一 “确定” 按钮 ,完成 “ 表 输 入 ”控件 的 配置 。 


3. 配置 “ 表 输 出 ”控件 


双击 图 4-87 中 的 “ 表 输 出 "控件, 进入“ 表 输出 ”界面 ,如 图 4-92 所 示 。 

在 图 4-92 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 4-93 所 示 。 

单 击 图 4-92 中 目标 表 后 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 数据 表 student OZKA 
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= le z 
SEER SEN 
MERER [mesq] = 
soL [ss] FE-) [weard-] 
ISELECT * FROM student: EE 
» 
行列 22 


图 4-91 预览 数据 


EE] 


图 4-92 “ 表 输 出 ”界面 


m9m 数据 清洗 
Ee EES 
高 级 连接 名 称 : 
选项 
连接 池 mysal 
i 连接 类 型 : as 
ED 主机 名 称 : 
MS Access localhost ° 
MS SQL Server . 
MS SQL Server (Native) BEREM 
MariaDB extract ° 
MaxDB (SAP DB) =" 
MonetDB mos: 
3306 ° 
Native Mondrian Heg: 
Neoview s 
Netezza 了 | root ° 
连接 方式 : B 
ceecee ° 
JNDI Use Result Streaming Cursor 


提前 创建 , 且 表 结构 需 根据 SQL Server 中 的 数据 字段 和 数据 类 型 创建 ,这 里 不 演示 ); 勾 选 
“指定 数据 库 字 段 " 复 选 框 ,用 于 将 数据 表 student 的 字段 与 数据 表 student_mysql 的 字段 进 


图 4-93 MySQL 数据 库 连接 的 配置 


行 匹配 ,具体 如 图 4-94 所 示 。 


FE" 
SEZ mai 
nawan [eane TE E wees 
目标 模式 ME 
目标 表 student mysql | 
提交 记录 数量 1000 ° 
arz 回 
DEAR O 
aana] 
+m [数据库 字段 
插入 的 字段: 
S mem RFR | [aasa] 
[ansans] 
(Onee) [ao |[ wao J sa | 


在 图 4-94 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,如 图 4-95 所 示 , 
在 图 4-95 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 对 应 的 字段 ,再 单 击 Add 按 
钮 ,将 一 对 映射 字段 添加 至 “映射 " 框 中 。 若 “ 源 字段 ”中 的 字段 和 “目标 字段 "中 的 字段 相同 ， 


图 4-94 ”指定 输出 的 目标 表 


则 可 以 单 击 “ 猜 一 猿 ”按钮 ,让 Kettle 自动 实现 映射 .具体 如 图 4-96 所 示 。 
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图 4-96 设置 映射 匹配 


在 图 4-96 中 单 击 “ 映 射 匹配 ?对 话 框 中 的 “确定 ?按钮 “ 表 输 出 ?界面 最 终 显示 的 效果 如 
图 4-97 所 示 , 单 击 * 确 定 "按钮 ,完成 “ 表 输出 ”控件 的 配置 。 


EEN Le = 


步 要 名 称 “ 表 给 出 
appn [i [sas-.] waara..] 
目标 模式 ° 
目标 表 student_mysql © (p) 
提交 记录 数量 1000 ° 
ans 回 
忽略 插入 错误 O 
指定 数据 库 字 段 V 
主 选项 数据库 字段 
插入 的 字段: 
mem mesa -| [EE 
Spee IC 
[Quee] [ao J| wao J| sa | 


图 4-97 “ 表 输 出 ”界面 最 终 显示 的 效果 


4. 运行 转换 mssql_mysql 


单 击 转换 工作 区 顶部 的 医 按 钮 ,运行 创建 的 转换 mssql_mysql, 实 现 将 数据 表 student 


F 


中 的 数据 抽取 到 数据 表 student_mysql 中 ,具体 如 图 4-98 所 示 。 


($£ mssql mysql z 
P +H Dr. em BR FJ 10% ~ 


可 ~ 一 一 加 | 


FRA 表态 出 


1 


执行 结果 口 X 
Ë B= @ nnne [Z mesa". [7 Hm] Metrics] dp Preview data] 

£ DERM 复制 的 记录 行 数 读 = 输入 输出 更 新 拒绝 错误 激活 时 间 人 
1 SW 0 0 10 10 0 0 0 0 已 完成 0.0s 国 
2 Wat 0 10 10 0 10 0 0 0 已 完成 02s ~ 
| 


图 4-98 ”运行 转换 mssql_mysql 


从 图 4-98 中 执行 结果 的 “步骤 度量 "可 以 看 出 ,“ 表 输入 "控件 输入 10 条 数据 并 写 和 该 
控件 中 ;“ 表 输出 ”控件 读 取 “ 表 输入 ”控件 的 10 条 数据 并 写 入 该 控件 中 ,最 终 进 行 输 出 。 也 
就 是 说 ,“ 表 输出 ”控件 将 从 表 输 入 流 中 读 取 的 10 条 数据 均 写 人 数据 表 student_mysql 中 。 


5. 查看 数据 表 student_mysql 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 student_mysql 是 否 已 成 功 插入 10 条 数据 ,查看 结果 
如 图 4-99 所 示 。 


zm >| > 8 8 @ | 国 
ia 


poor farien 


E 4-99 数据 表 student_mysql 


从 图 4-99 中 可 以 看 出 ,数据 表 student_mysql 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 将 


SQL Server 数据 库 的 数据 表 student 中 的 数据 抽取 到 MySQL 数据 库 的 数据 表 student 
mysql 中 。 


4.3.2 抽取 非 关 系 型 数据 库 的 数据 


看 到 NoSQL 这 个 词 , 大 家 可 能 会 误 以 为 是 No! SQL 的 缩写 ,并 深 感 证 异 :“SQL 怎么 
会 没有 必要 了 呢 ?”。 实 际 上 .NoSQL 是 Not Only SQL 的 缩写 , 它 的 含义 不 仅 是 SQL ,为 了 
弥补 关系 型 数据 库 的 不 足 , 各 种 各 样 的 NoSQL 数据 库 应 运 而 生 , 如 MongoDB, Redis 及 
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HBase 等 非 关系 型 数据 库 。 
现 有 一 个 集合 ,名 为 Personal information( 存 在 于 MongoDB 数据 库 中 ,此 集合 需 读者 
提前 创建 ), 具 体内 容 如 图 4-100 所 示 。 


id name age gender hobby address 

ObjectID("5d09f7t40e36a41070ff08a7") "P "zhangsan"™™? 19 "male" ™"™ "movie" w | "北京 市 昌平 区 和 谐 小 区 5 号 楼 2 单元 001 室 " 5] 
ObjectID("5d0919540e36a41070ff08a9") “9 "iisi" Sma 20 "== "female' se "reading book” :9 "上 海 市 徐汇 区 文博 范 小 区 6 号 楼 1 单元 002 室 "> 
ObjectID(5d09fa2b3536671070c3ed8c") ”” '” -wangwu” “18 "™ “male” `”"" "playing" S "北京 市 朝阳 区 流星 花园 1 与 楼 4 单元 003 室 ”“""| 
ObjectiD("5d09fb8735d6671070c3ed8d") "="? "xiaog “"" 20 “° "emale'™ "Listen to music" “北京 市 朝阳 区 文书 苑 3 号 楼 1 单元 102 室 ” 5] 
ObjectID("5d09fc293546671070c3ed8e”) ™™®® "zhaoliu" “9 19 "= "male" 9 "Painting" 9 | "北京 市 海淀 区 中 关 村 园 11 号 楼 1 单元 603 室 "sm9| 


图 4-100 Personal information 集合 


下 面 分 步骤 讲解 如 何 抽 取 集 合 Personal information 中 的 数据 并 保存 至 MySQL 中 的 
数据 表 Personal information 中 ,具体 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


通过 使 用 Kettle 工具 创建 转换 mongodb_mysql_extract, 并 添加 MongoDB input 控件 、 
JSON input 控件 “ 表 输 出 ?控件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 4-101 所 示 。 


FX mongodb_mysql_ext... 3 ] 
DP +H D. en WE E 10% ~ 


>. > 
MongoDB input JSON input 


图 4-101 创建 转换 mongodb_mysql_extract 


2. 配置 MongoDB input 控件 


双击 图 4-101 中 的 MongoDB input 控件 ,进入 MongoDB input 界面 ,如 图 4-102 所 示 。 
E. MongoDB input mam) 


Step name MongoDB input 


Configure connection™ Input options | Query) Fields | 
Host name(s) or IP address(es) ° 
Port ° 
Enable SSL connection [F] 
Use all replica set members/mongos F] 
Authentication database ° 
Authenticate Mechanism | -| 


Camo ]| sme J mmo | 


图 4-102 MongoDB input 界面 


在 图 4-102 中 单 击 Configure connection 选项 卡 ,配置 数据 库 连接 , 即 在 Host name(s) 
or IP address(es) 处 指定 主机 名 localhost( 本 节 使 用 的 MongoDB 数据 库 安装 在 本 机 ), 在 
Port 处 指定 端口 号 27017 ,具体 效果 如 图 4-103 所 示 。 


E MongoDB input ee) 
Step name MongoDB input 
Configure connection Input options | Query | Fields | 
Host name(s) or IP address(es) ° 
| ° 
Enable SSL connection 回 
Use all replica set members/mongos [F] 
Authentication database ° 
Authenticate Mechanism | 司 
Laco J| man J. mac | 


图 4-103 配置 MongoDB 数据 库 连接 


在 图 4-103 中 单 击 Input options 选项 卡 , 进 入 Input options 选项 卡 界 面 ,如 图 4-104 
所 示 。 


E. MongoDB input = 
Step name MongoDB input 
Configure connection [input options ~ Query| Fields] 
Database [db E: 
Collection [collection ,ee 
Read preference |primary - 


eat spainean [Setane [zoin sas Test tep sat] 
MOr] [Cazo] Caa [we | 


图 4-104 Input options 选项 卡 界 面 


在 图 4-104 中 指定 数据 库 和 数据 表 , 即 在 Database 处 添加 数据 库 mongodb_mysql, 在 
Collection 处 添加 集合 Personal information ,具体 如 图 4-105 所 示 。 


TE, MongoDB input 


Step name MongoDB input 
Configure connection [Input options ™ Query] Fields | 
Database [morgo ma] ems 
Colection [personal omaton] =] 
Read preference [primary Ë 


aa sess (Gn asia tage Test tea set) 
[Ga | 


图 4-105 ”指定 数据 库 和 数据 表 
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在 图 4-105 中 单 击 Fields 选项 卡 , 勾 选 Output single JSON field 复 选 框 ,并 在 Name of 
JSON output field 处 指定 输出 的 字段 名 为 json, 具 体 如 图 4-106 所 示 。 


E. MongoDB input 


Step name MongoDB input 
Configure connection [Input options [Query [Fields 
Output single JSON field 
Name of JSON output field json 


ma 


图 4-106 ”指定 输出 字段 
在 图 4-106 中 单 击 “确定 ”按钮 ,完成 MongoDB input 控件 的 配置 。 
3. 配置 JSON input 控件 
双击 图 4-101 中 的 JSON input 控件 ,进入 "JSON 输入 ”界面 ,如 图 4-107 所 示 。 


B, JSON 输入 [= = 
JEER JSON input 
PA AR) 字段 | 其 他 柱 出 字段 | 
从 字段 获 职 源 
源 定义 在 一 个 字段 里 ? 回 
AFROS - 
Bama O 
Murena? 口 
[aso |[ man |[ wao | 


Æ 4-107 “JSON 输入 "界面 


在 图 4-107 中 单 击 “ 文 件 ” 选 项 卡 ,配置 数据 的 获取 源 , 勾 选 “ 源 定义 在 一 个 字段 里 ?”" 复 
选 框 ,在 “从 字段 获取 源 ” 后 的 下 拉 列 表 中 选择 json, 具 体 效果 如 图 4-108 所 示 。 


E, JSON 输入 llel = 
步骤 名 称 JSON input 
文件 、、 内 容 | 字段 | 其 他 输出 字段 | 
从 字段 获取 源 
sexe mem M 
MPRE [json = 
源 旺 一 个 文件 各 ? 回 
Dugna E 
Do not pass field downstream: 回 
For Gasna mo [yes 


图 4-108 配置 数据 的 获取 源 


m02 数据 清洗 


在 图 4-108 中 单 击 * 字 段 ? 选 项 卡 ,添加 要 抽取 的 数据 字段 ,具体 如 图 4-109 所 示 。 


E ISON RA =m 器] 


图 4-109 添加 要 抽取 的 字段 


在 图 4-109 中 单 击 “ 确 定 ” 按 钮 ,完成 JSON input 控件 的 配置 。 
4. 配置 表 输出 控件 
双击 图 4-101 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 ”界面 ,如 图 4-110 所 示 。 


FE [= N 


数据 库 连 接 ~| (wa) [WE 


图 4-110 “ 表 输 出 界面 


在 图 4-110 中 单 击 * 新 建 ? 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 4-111 所 示 。 

单 击 图 4-110 中 目标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 数据 表 personal 
information( 该 表 需 提前 创建 , 且 表 字段 需 根 据 MongoDB 数据 库 的 集合 Personal 
information 中 的 数据 字段 和 数据 类 型 创建 ,这 里 不 演示 ); 勾 选 “ 指 定数 据 库 字 段 " 复 选 框 ， 
用 于 将 MySQL 中 数据 表 Personal information 的 字段 与 MongoDB 中 集合 Personal 
information 的 字段 进行 匹配 ,具体 如 图 4-112 所 示 。 

在 图 4-112 中 单 击 “数据 库 字 段 ? 选 项 卡 , 进 入 “数据 库 字 段 ? 选 项 卡 界面 ,如 图 4-113 
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LE J 
设置 
主机 名 称 : 
localhost ° 
数据 库 名 称 : 
extract ° 
mn: 
3306 ° 
用 户 名 : 
root ° 
z5: 
*..... ° 
F] Use Result Streaming Cursor 
caca 
Æ 4-111 MySQL 数据 库 连接 的 配置 
EE =M Os 
PB meN 
mmen [rangam lma) (r) was] 
mee * ma 
目标 表 [personal information e Bea 
提交 记录 数量 1000 ° 
anz 回 
忽略 插入 错误 C 
指定 数据 库 字 段 团 
ER 
soree N 
anr -6 
每 个 月 分 区 数据 加 
每 天 分 区 数据 上 
° mo )[ wc | sa J 


图 4-112 指定 输出 的 目标 表 


所 示 。 

在 图 4-113 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,如 图 4-114 所 示 。 

在 图 4-114 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 "中 对 应 的 字段 ,再 单 击 Add 按 
钮 ,将 一 对 映射 字段 添加 至 “映射 " 框 中 , 若 “ 源 字段 "中 的 字段 和 “目标 字段 ”中 的 字段 相同 ， 
则 可 以 单 击 “ 猜 一 猿 " 按 钮 .让 Kettle 自动 实现 映射 ,具体 如 图 4-115 所 示 。 

在 图 4-115 中 单 击 “ 映 射 匹配 ”对 话 框 中 的 “确定 ”按钮 ,“ 表 输出 ”界面 最 终 显 示 的 效果 
如 图 4-116 所 示 , 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 出 ”控件 的 配置 。 


mba 


自动 渤 择 目 标 V amass A 
隐 茂 已 经 匹配 的 源 字 段 隐 茂 已 经 匹配 的 目标 字段 
| | 


图 4-114 “了 映射 匹配 ”对 话 框 


图 4-115 设置 映射 匹配 


5. 运行 转换 mongodb_mysql_extract 


单 击 转换 工作 区 项 部 的 器 按钮 ,运行 创建 的 转换 mongodb_mysql_extract, 实 现 将 集合 
Personal information 中 的 数据 抽取 到 MySQL 的 数据 表 Personal information 中 ,具体 如 
图 4-117 所 示 。 
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p> Ele x J 
2826 JEN 
ESEE |mongo_mysql -JE FE 
目标 模式 ° (aae. | 
目标 表 ”personal information ° [ESB ) 
提交 记录 数量 1000 ° 
ass 回 
BNR O 
a J| 
DEn [EEEF 
插入 的 字段 : 
EE zra SE 
1 id id 
P me EX 
3 age age 
4 gender gender 
5 hobby hobby 
6 address address - 
° bao) wo sw | 


图 4-116 “ 表 输 出 ”界面 最 终 显 示 的 效果 


($£ mongodb mysqlLextract £3 


>- lH Drei XJR FJ 10% ~ 


如 -一 区 > — fP 
MongoDB input JSON input mah 


4 


Dx 
Ë B= @ nent [Z SEER 性 各 图 | Ë Metrics| dp Preview data| 
® 
£ ， 步 要 名 称 复制 的 记录 行 数 ” 读 5 输入 输出 更 新 E WR 激活 时 间 
1 MongoDB input 0 0 5 0 0 0 0 0 已 完成 0.0s 
2 JSON input 0 5 s 5 0 0 0 0 已 完成 0.0s 
3 Sat 0 s 5 0 5 0 0 0 已 完成 02s 
和 


图 4-117 运行 转换 mongodb_mysql_extract 


从 图 4-117 中 执行 结果 的 “步骤 度量 "可 以 看 出 .MongoDB input 控件 写 入 5 条 数据 ; 
JSON input 控件 读 取 MongoDB input 控件 的 5 条 数据 作为 输入 并 写 入 该 控件 中 ;* 表 输出 ” 
控件 读 取 JSON input 控件 的 5 条 数据 并 写 和 人 该 控件 ,最 终 进 行 输出 。 也 就 是 说 ,“ 表 输出 ” 
控件 将 从 JSON input 输入 流 中 读 取 的 5 条 数据 写 人 数据 表 Personal information 中 。 


6. 查看 数据 表 Personal information 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 Personal information 是 否 已 成 功 插入 5 条 数据 ,查看 


Sd09f9540e36a41070ff08a9 lisi 20 female reading book ”| 上 海 市 徐汇 区 文博 苑 小 区 6 号 楼 1 单 元 002 室 | 
5d09fa2b35d6671070c3ed8c |wangwu 18male playing 北京 市 朝阳 区 流星 花园 1 号 楼 4 单元 003 室 
5d09fb8735d6671070c3ed8d xiaoqi 20 female [Listen to music 北京 市 朝阳 区 文书 苑 3 号 楼 1 单元 102 室 


5d09fc2935d6671070c3ed8e zhaoliu | 19male Painting | 北京 市 海淀 区 中 关 村 园 11 号 楼 1 单元 603 室 


图 4-118 数据 表 Personal information 


从 图 4-118 中 可 以 看 出 ,数据 表 Personal information 中 已 插入 数据 ,说 明 我 们 成 功 实 
现 了 将 MongoDB 的 集合 Personal information 中 的 数据 抽取 到 MySQL 的 数据 表 Personal 


information 中 。 
4.4 本 章 小 结 


本 章 主要 讲解 了 数据 抽取 的 相关 知识 ,包括 抽取 文本 数据 .抽取 Web 数据 以 及 抽取 数 
据 库 数据 。 和 希望 读者 通过 本 章 的 学 习 , 掌 握 抽取 各 种 形式 的 数据 保存 至 数据 库 中 ,以 便于 后 
续 对 数据 进行 清洗 和 分 析 。 


4.5 本章 习题 
一 、 填空 题 


1. 实际 应 用 中 ,常用 的 文本 文件 类 型 有 两 种 .分别 是 TSV 文件 和 文件 。 
2. 制 表 符 文 件 中 的 数据 是 以 的 结构 进行 存储 。 

3. 使 用  _ 分 隔 数 据 字 段 的 文件 被 称 为 逗号 分 隔 值 文件 。 

4. HTML 可 以 以 的 形式 展示 ,HTML 文档 中 包含 和 纯 文 本 。 
是 一 种 轻 量 级 的 数据 交换 格式 。 


二 、 判断 题 


1. XML 是 一 种 和 HTML 完全 相同 的 标记 语言 。 ( ) 
2. JSON 是 一 种 编程 语言 。 ( ) 
3. 通过 制 表 符 分 隔 的 文本 数据 与 未 使 用 制 表 符 分 隔 的 数据 相 比 ,前 者 更 便于 观察 识 
别 ,同时 也 便于 对 数据 进行 抽取 操作 。 Ç j. 
4. CSV 文件 以 纯 文 本 形式 存储 表格 数据 (数字 和 文本 ) 。 ) 
5. NoSQL 是 No! SQL 的 缩写 。 ( ) 


三 、 选 择 题 


1. 下 列 实 现 原则 中 ,选项 不 属于 CSV 的 实现 原则 。 
A. 文件 开头 不 能 留 空 ,以 * 列 ?为 单位 
B. 在 文件 读 写 时 ,引号 和 逗号 操作 规则 不 可 互 道 
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C. 文件 中 不 支持 数字 或 特殊 字符 

D. 文件 中 的 一 行 数据 不 能 跨行 ,但 是 行 与 行 间 可 存在 空 行 
2. 下 列 关 于 XML 用 途 的 说 法 中 ， 的 说 法 是 正确 的 。 

A. XML 不 可 将 数据 从 HTML 中 分 离 

B. XML 无 法 简化 数据 共享 

C. XML 无 法 使 数据 充分 利用 

D. XML 可 用 于 创建 新 的 互联 网 语言 


3. 下 列 数据 库 中 ,数据库 属于 非 关 系 型 数据 库 。 
A. MySQL B. MongoDB C. Oracle D. SQL Server 
四 、 操 作 题 


通过 Kettle 工具 ,实现 以 下 功能 : 
(1) 抽取 CSV 文件 csv_extract. csv 中 的 数据 保存 至 数据 库 extract 中 的 数据 表 
csv 中 。 


(2) 抽取 JSON 文件 json_extract. js 中 的 数据 保存 至 数据 库 extract 中 的 数据 表 
json 中 。 
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数据 的 清洗 与 检验 


学 习 目 标 

(1) 掌握 数据 去 重 的 方法 
(2) 掌握 缺失 值 处 理 的 方法 
(3) 掌握 异常 值 处 理 的 方法 
(4) 了 解数 据 检 验 的 作用 


数据 清洗 是 一 项 复杂 且 烦 琐 的 工作 ,同时 也 是 整个 数据 分 析 过 程 中 最 重要 的 环节 。 数 
据 清洗 的 目的 在 于 提高 数据 质量 ,将 * 脏 ”数据 (“ 脏 ?数据 在 这 里 指 的 是 对 数据 分 析 没 有 实际 
意义 ,格式 非法 ,不 在 指定 范围 内 的 数据 ) 清 洗 干 净 , 使 原 数据 具有 完整 性 、 唯 一 性 ,权威 性 、 
合法 性 一致 性 等 特点 。 常 见 的 数据 清洗 操作 包括 重复 值 的 处 理 、 缺 失 值 的 处 理 、 异 常 值 的 
处 理 等 操作 ,同时 ,为 了 保证 数据 的 有 效 性 ,少不了 数据 校 验 操作 。 本 章 将 针对 数据 清洗 和 
校 验 进行 详细 讲解 。 


5.1 数据 去 重 


数据 去 重 又 称 重复 数据 的 删除 ,通常 指 的 是 找 出 数据 文件 集合 中 重复 的 数据 并 将 其 删 
除 ,只 保存 唯一 的 数据 单元 ,从 而 消除 元 余数 据 。 通 常 ,数据 去 重 方法 分 为 两 种 ,分 别 是 完全 
去 重 和 不 完全 去 重 。 本 节 将 针对 这 两 种 数据 去 重 的 方式 进行 讲解 。 


5.1.1 完全 去 重 


完全 去 重 指 的 是 消除 完全 重复 的 数据 ,这 里 提 到 的 完全 重复 数据 指 的 是 数据 表 记录 字 
段 值 完全 一 样 的 数据 。 例 如 ,现在 有 两 个 表格 ,分 别 记录 不 同年 份 的 用 户 信 息 , 现 要 求 合 并 
统计 所 有 用 户 信息 ,发现 合 并 后 的 表格 存在 完全 重复 的 数据 ,示例 如 图 5-1 所 示 。 

从 图 5-1 中 可 以 看 出 ,合并 后 的 数据 表 中 存在 完全 相同 的 数据 ,为 了 便于 后 期 更 加 方便 
地 使 用 这 些 用 户 数 据 ,通常 情况 下 会 对 数据 进行 去 重 操作 。 

接 下 来 使 用 Kettle 工具 演示 如 何 消除 这 些 完全 重复 的 数据 ,具体 步骤 如 下 。 


1. 数据 准备 
合并 后 的 用 户 名 单 存 放 在 CSV 文件 merge. csv 中 ,具体 内 容 如 图 5-2 所 示 。 


2017 年 部 分 用 户 名 单 
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图 5-2 merge. csy 文件 的 内 容 


2. 打开 Kettle 工具 ,新 建 转换 


使 用 Kettle 工具 创建 转换 repeat_transform .并 添加 “CSV 文件 输入 ?控件 “唯一 行 ( 哈 


WD "控件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 5-3 所 示 。 


>x repeat transform 53 


>- 10-08 


OR æ 10% ~ 


— 9 


唯一 行 ( 哈 希 值 ) 


图 5-3 


创建 转换 repeat_transform 


Gender City 
zhangsan male beijing Cari Ga 
male nanjing zhangsan male beijing 
hanmeimei female hebei liwu male nanjing 
male henan hanmeimei female hebei 
2018 年 部 分 用 户 名 单 merkia ls === 
Gender City zhangsan male beijing 
i lisi male nanjing 
male | hanmeimei female hebei 
Tale | wangwu male henan 
male | xiaoming female sichuan 
female | 
图 5-1 用 户 名 单 
4 À B C 
W Name Gender City 
2 zhangsan nale bei jing 
3 liwu male nanjing 
4 hanmeinei fenale hebei 
5 wangliu male henan 
6 zhangsan male beijing 
7 Isl male nanjing 
8 hanmeinei female hebei 
9 wangwu male henan 
10 xiaoming female sichuan 
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3. 配置 “CSV 文件 输入 "控件 
双击 图 5-3 中 的 “CSV 文件 输入 ”控件 ,进入 “CSYV 文件 输入 ”界面 ,如 图 5-4 所 示 。 


B, CSV 文件 给 入 


[Laco || anse J| mam J| mso | 


所 示 。 


图 5-4 “CSV 文 件 输入 "界面 


图 5-4 中 单 击 “ 浏 览 ” 按 钮 ,选择 要 进行 完全 去 重 处 理 的 CSV 文件 merge. csv, 如 图 5-5 


步 要 名 称 “SV 文 件 输入 


KHE [CAUsers\admin\Desktop\merge.cs ° 


列 分 隔 符 ， ° 


图 $-5 选择 要 进行 完全 去 重 处 理 的 CSV 文件 merge. csv 


在 图 5-5 中 单 击 “ 获 取 字 段 ” 按 钮 ,Kettle 会 自动 检索 CSV 文件 ,并 对 文件 中 的 字段 类 


型 .格式 ,长 度 、 精 


度 等 属性 进行 分 析 , 具 体 如 图 5-6 所 示 。 


在 图 5-6 中 单 击 “ 预 览 ” 按 钮 ,查看 CSV 文件 merge. csv 的 数据 是 否 加 载 到 CSV 文件 


输入 流 中 ,具体 效 


果 如 图 5-7 所 示 。 
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B, CSV XEHEA [elel x 
步 要 名 称 CSV 文 件 输入 
文件 名 CAUsers\admin\Desktop\merge.csv ° EE 
CoE 9 (masaman) 
封闭 符 “ ° 
NIO ÆFA 50000 ° 
简易 转换 ? 加 
Banan M 


图 5-6 Kettle 检索 CSV 文件 


HESA AEA) 
DER CSV 文 件 输入 的 数据 (9 rows) 

|£ Name Gender City - 
1 zhangsan male beijing 

2 lw male nanjing 

3 hanmeimei female hebei 

4 wangliu male henan 

5 zhangsan male beijing 

6 lisi male nanjing 

7 hanmeimei female hebei 

8 wangwu male henan 

9 xiaoming female sichuan z 


图 5-7 预览 数据 


从 图 5-7 中 可 以 看 出 ,CSV 文件 merge. csv 的 数据 已 经 成 功 抽取 到 CSV 文件 输入 流 
中 , 单 击 “ 关 闭 ”>“ 确 定 ” 按 钮 .完成 “CSV 文件 输入 "控件 的 配置 。 


4. 配置 “唯一 行 ( 哈 希 值 )" 控 件 


双击 图 5-3 中 的 “唯一 行 ( 哈 希 值 )" 控 件 , 进 入 “唯一 行 ( 喻 希 值 )" 界 面 ,如 图 5-8 所 示 。 

在 图 5-8 中 的 “用 来 比较 的 字段 ?处 添加 要 去 重 的 字段 ,这 里 可 以 单 击 “ 获 取 ” 按 钮 ,添加 
需要 去 重 的 字段 ,具体 如 图 5-9 所 示 。 

在 图 5-9 中 单 击 “确定 ?按钮 ,完成 “唯一 行 ( 哈 希 值 ) "控件 的 配置 。 


mhia 数据 清洗 


> ea st) 


[Oe] [wo J| wo |[ sm J 


图 5-8 “唯一 行 ( 哈 希 值 ) 界 面 


图 5-9 添加 需要 去 重 的 字段 
5. 运行 转换 repeat transform 


t h Fd T. fE P< TR SB 0 p TE H, š $T @J E hG $E repeat_transform ,实现 消除 CSV X: 
件 merge. csv 中 完全 重复 的 数据 ,具体 如 图 5-10 所 示 。 


[z repeat transform 可 
b r l D. e D XEIRA FJ 10% ~ 


PJ > g? I 


CSV 文 件 输入 唯一 行 08848) 

a » 
执行 结果 Dx 
目 B= (@ nnne hi ima. 7 tem] Metrics| dp Preview data | 

® 

|£ pata 复制 的 记录 行 数 ” È s 输入 输出 更 新 ç e MR ms 

1 “CSV 文 件 输入 0 0 9 10 0 0 0 0 已 完成 

2 f Re) 0 9 A 0 0 0 z 0 已 完成 

< | 


图 5-10 ”运行 转换 repeat transform 
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从 图 5-10 中 执行 结果 窗口 的 “步骤 度量 ”选项 卡 可 以 看 出 ,“CSYV 文件 输入 ”控件 输入 
10 条 数据 并 写 入 该 控件 9 条 数据 (其 中 有 1 条 数据 为 表 头 );“ 唯 一 行 ( 喻 希 值 )” 控 件 从 
“CSV 文件 输入 ”控件 读 取 9 条 数据 , 写 人 该 控件 7 条 数据 ,拒绝 2 条 数据 (这 2 条 数据 为 完 
全 重复 数据 )。 也 就 是 说 ,CSV 文件 merge. csv 中 有 2 条 数据 与 其 他 数据 完成 重复 。 

选中 图 5-10 中 的 “唯一 行 ( 哈 希 值 )? 控 件 , 单 击 执行 结果 窗口 的 Preview data 选项 卡 ， 
查看 是 否 消除 CSV 文件 merge. csv 中 完全 重复 的 数据 ,具体 如 图 5-11 所 示 。 


执行 结果 口 X 
Ë 昌 志 [回执 有 历史 | 三 += [|= sam [Ë Metrics [b Preview data 

@ S(TransPreview.FirstRows.Label) © $(TransPreview.LastRows-Label) © ${TransPre 
(É Name Gender City 

ËB] zhangsan male beijing 

2 lw male nanjing 

3 hanmeimei female hebei 

4 wangliu male henan 

5 lisi male nanjing 

6 wangwu male henan 

7 xaoming female sichuan 


图 5-11 查看 是 否 消除 CSV 文件 merge. csv 中 完全 重复 的 数据 


从 图 5-11 中 可 以 看 出 ,CSV 文件 merge. csv 中 的 数据 已 经 没有 了 完全 重复 的 值 ,说 明 
通过 Kettle 工具 实现 了 消除 完全 重复 数据 的 功能 。 

注意 : 本 小 节操 作 只 是 将 CSV 文件 merge. csv 的 数据 读 取 到 Kettle 中 进行 完全 去 重 
处 理 , 并 不 会 改变 CSV 文件 merge. csv 的 原始 数据 ,如 需 保存 处 理 后 的 数据 , 须 添加 相关 输 
出 控件 。 


5.1.2 不 完全 去 重 


数据 清洗 过 程 中 ,所 有 字段 值 都 相等 的 重复 值 是 一 定 要 剔除 的 。 根 据 不同 的 业务 场景 ， 
有 时 还 需要 选取 其 中 若干 字段 进行 去 重 操作 。 
假设 现在 有 一 份 用 户 访问 网 站 的 数据 文件 people. txt, 具 体内 容 如 图 5-12 所 示 。 


garcia MemberUser 15201011506 2019-03-17 11:59:12 3 
anderson GeneralUser 13105916651 2019-04-02 12:00:32 
sharma MemberUser 15803924337 2019-04-12 09:45:33 
smith GeneralUser 15905741651 2019-04-22 09:55:44 
johnson MemberUser 15804058842 2019-05-23 09:12:23 
garcia GeneralUser 13404840224 2019-05-17 08:03:12 
anderson GeneralUser 13202438054 2019-05-12 12:17:53 
jones MemberUser 13606051520 2019-05-22 10:21:03 
johnson GeneralUser 15000220514 2019-11-16 12:56:47 

jones MemberUser 13606051520 2019-11-02 13:01:35 
arcia MemberUser 15201011506 2019-08-24 15:17:57 id 


Æ 5-12 文件 people. txt 的 内 容 


从 图 5-12 中 可 以 看 出 ,第 1 条 记录 和 第 11 条 记录 都 指向 同一 个 用 户 , 只 是 访问 的 时 间 
不 同 。 下 面 通过 Kettle 工具 将 文件 people. txt 中 不 完全 重复 的 数据 进行 去 重 处 理 , 即 使 用 
Name( 姓 名 ) 、UserLevel( 用 户 级 别 ) 和 Phone( 手 机 号 )3 个 字段 作为 去 重 处 理 的 比较 对 象 判 


断 唯一 用 户 , 具 体 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 part_repeat_transform, 并 添加 “文本 文件 输入 ”控件 “唯一 
行 ( 哈 希 值 ) 控 件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 5-13 所 示 。 


ZK part repeat transform 52 
b +H D. e nD ZEE Æ 10% ~ 


P. | 


文本 文件 绽 入 唯一 行 ( 哈 希 值 ) 


图 5-13 ”创建 转换 part_repeat_transform 


2. 配置 “文本 文件 输入 "控件 
双击 图 5-13 中 的 “文本 文件 输入 ”控件 ,进入 “文本 文件 输入 ”界面 ,如 图 5-14 所 示 。 


P. 文本 文件 给 入 己 | 回 | = 


步骤 名 称 文本 文件 输入 
文件 和、 内容 | 错误 处 理 ] 38] 字段 | 其 他 给 出 字 各 
zrama EE 
规则 表达 式 e 
TEUTA) ° 
选中 的 文件 | 新 | 文件 /目录 AEF BRASH) ER 包含 子 目 录 
: 


图 5-14 “文本 文件 输入 "界面 


在 图 5-14 中 单 击 “ 浏 览 ” 按 钮 ,选择 要 去 重 的 文件 people. txt, 效 果 如 图 5-15 所 示 。 

在 图 5-15 中 单 击 “ 增 加 ”按钮 ,将 要 去 重 的 文件 people. txt 添加 到 转换 part_repeat_ 
transform 中 ,具体 效果 如 图 5-16 所 示 。 

在 图 5-16 中 单 击 “ 内 容 ” 选 项 卡 , 切 换 到 “内 容 ” 选 项 卡 界面 ,如 图 5-17 所 示 。 

在 图 5-17 中 清除 分 隔 符 处 的 默认 分 隔 符 “;”, 并 单 击 Insert TAB 按钮 ,在 分 隔 符 处 插 
入 一 个 制 表 符 ;取消 勾 选 “ 头 部 ” 复 选 框 , 若 不 取消 , 则 在 进行 数据 抽取 操作 时 会 排除 文件 第 
一 行 的 数据 。“ 内 容 ” 选 项 卡 的 配置 如 图 5-18 所 示 。 

在 图 5-18 中 单 击 “ 字 段 ” 选 项 卡 , 切 换 到 “字段 "选项 卡 界面 ,如 图 5-19 所 示 。 
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P. 文本 文件 输入 = 
PEER “文本 文件 输入 
文件 AR| 错误 处 理 | hs) 字段 | 其 他 输出 字段 | 
Ha © ==) [sssa=] > 
规则 表达 式 ° 
出 志 让 式 排除 ) © 
选中 的 文件 | 关 ， 文件/ 目录。 AEA ARASH) ER NAFAR 
+ 
从 上 一 步 村 取 文件 名 
从 /前 的 步 村 接受 文件 名 回 z 
ER 下 
[ao | [mo J 
图 5-15 选择 要 去 重 的 文件 people. txt 
EEN Erem] 
DEER “文本 文件 输入 
文件 、 内 容 | 错误 处 理 | dhis) 字段 | 其 他 输出 字段 | 
mmo; 
规则 表达 式 ° 
正则 表达 式 (排除 ) © 
选中 的 文件 |f | 文件/ 目录 通配符 。。 通配符 号 (排除 ) 
* D 
TI 
从 上 一 步 村 革 取 文件 名 
从 /前 的 步 对 接受 文件 名 回 
IE 下 
[aano] | maa... maq. 


图 5-16 ”添加 文件 people. txt 至 转换 part_repeat_transform 中 


在 图 5-19 中 ,根据 文件 people. txt 的 内 容 添 加 对 应 的 字段 名 称 , 并 指定 数据 类 型 ,这 里 
需要 注意 的 是 , 制 表 符 可 看 作 是 由 多 个 空格 组 成 ,因此 在 “去 除 空 字符 串 方式 ” 列 时 ,所 添加 
的 字段 都 应 选择 “不 去 掉 空格 ”, 否 则 在 抽取 数据 操作 时 ,会 把 制 表 符 当 作 空 格 去 除 , 而 不 能 
把 制 表 符 作为 分 隔 符 实现 文本 文件 内 容 的 分 隔 .“ 字 段 ? 选 项 卡 的 配置 如 图 5-20 所 示 。 

在 图 5-20 中 单 击 “预览 记录 ”按钮 ,查看 文件 people. txt 的 数据 是 否 成 功 抽取 到 文本 文 
件 输入 流 中 ,具体 效果 如 图 5-21 所 示 。 

从 图 5-21 中 可 以 看 出 ,文件 people. txt 的 数据 已 经 成 功 抽取 到 文本 文件 输入 流 中 , 单 
击 “ 关 闭 ”>“ 确 定 ” 按 钮 ,完成 “文本 文件 输入 ”控件 的 配置 。 
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E 文本 文件 输入 


PEER KAUHAA 


CE EEEE EC EA] 


文件 类 型 csv >| 
SR ; "ml 
文本 限定 符 ` 
在 文本 限定 符 里 允许 换行 ?器 
mera 


头 部 回头 部 行 数量 1 
尾部 回 尾行 数量 | 


包装 行 ? 回 以 时 间 包装 的 行 数 代 


分 页 布局 (printout)? E ss 333 [go 


[ao || msaa |[ mao | 


图 5-17 “内 容 "选项 卡 界面 


电文 本 文件 编 入 


步 要 名 称 “ 文 本 文件 输入 


EEC EE EE E 


文件 类型 [CSV 


文本 限定 符 “ 
在 文本 限定 符 里 允许 换行 ? 口 


头 部 E| casos ii 


JG 回 尾部 行 效 量 | 工 


包装 行 ? 加 以 时 间 包装 的 行 歼 a 


分 页 布局 (printout)? 图 STEFAR [go 


文档 关 B 行 


图 5-18 “内 容 ” 选 项 卡 的 配置 


BEER “文本 文件 输入 


文件 [内 容错 吴 处 理 [sss F Re] 


[És xm 格式 OR KE 精度。 “sm 
2 


cua 


图 5-19 “字段 "选项 卡 界面 
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P. 文本 文件 输入 


SEER “文本 文件 输入 


文件 [内容 [sisata (Esa [2875 其他 输出 闻 假 | 


|£ = #m ec 位 置 KE BE 货币 类 型 小数 $B ，Null if 默认 去 除 宝 字 符 这 方式 ^ 
1 Name String FHES 
2 Userlevel String 不 去 掉 空 格 
3 Phone String Taen 
4 VisistTime Date yyyy-MM-dd HH:mm:ss - 


&—— O r 


[CE [me aa [ saq.) 


5-20 “字段 "选项 卡 的 配置 


i 


DE 文本 文件 输入 的 数据 (11 rows) 

£ Name Usertevel Phone VisistTime 

1 garcia MemberUser 15201011506 2019-03-17 11:59:12 
2 anderson GeneralUser 13105916651 2019-04-02 12:00:32 
3 sharma MemberUser 15803924337 2019-04-12 09:45:33 
4 smith GeneralUser 15905741651 2019-04-22 09:55:44 
5 johnson MemberUser 15804058842 2019-05-23 09:12:23 
6 garcia GeneralUser 13404840224 2019-05-17 08:03:12 
7 anderson GeneralUser 13202438054 2019-05-12 12:17:53 
8 jones MemberUser 13606051520 2019-05-22 10:21:03 
9 johnson GeneralUser 15000220514 2019-11-16 12:56:47 
10 jones MemberUser 13606051520 2019-11-02 13:01:35 
u MemberUser 15201011506 


图 5-21 预览 数据 


3. 配置 “唯一 行 ( 哈 希 值 ) ”控件 


双击 图 5-13 中 的 “唯一 行 ( 哈 希 值 )” 控 件 , 进 入 "唯一 行 ( 哈 希 值 )” 界 面 , 如 图 5-22 


所 示 。 


D 唯一 行 ( 哈 希 值 ) = 器 
BRER Mf ( 哈 希 值 ) 
设置 
使 用 存储 的 记录 值 进行 比较 ? 回 


重 定 向 重复 记录 D amt e 
用 来 比较 的 字段 没有 科目 意味 着 : 比较 现在 完成 了 ) 
DEn] 


[Orap] [ao JU wo] a] 


图 5-22 “唯一 行 ( 哈 希 值 ) ”界面 


8 数据 清洗 


在 图 5-22 中 的 “用 来 比较 的 字段 ”处 添加 要 比较 去 重 的 字段 , 即 Name, UserLevel、 
Phone 字段 ,具体 如 图 5-23 所 示 。 


2 earem elel = J 


[Oe] [ao J| wo J sm | 
图 5-23 添加 要 比较 去 重 的 字段 


在 图 5-23 中 单 击 “ 确 定 ” 按 钮 ,完成 “唯一 行 ( 哈 希 值 )" 控 件 的 配置 。 


Ss 


4. 运行 转换 part_repeat_transform 


单 击 转换 工作 区 顶部 的 画 按 钮 ,运行 创建 的 转换 part _repeat__ transform, 实现 文件 
people. txt 中 数据 的 不 完全 重复 处 理 ,具体 如 图 5-24 所 示 。 


SX part repeat transform 52 
b +H Dí. e nD XOJA FJ 10% ~ 


PJ > g? | 


文本 文件 给 入 唯一 行 (8848) 

i F 

执行 结果 x 
Ë) B= [O nane hE SRE [2 m] Metrics| ® Preview data| 

® 

£ | 步 要 名 称 复制 的 记录 行 歼 。 读 s @A 输出 。 更 新 拒绝， 错误 ms 

1 文本 文件 柱 入 0 0 11 11 0 a. 0 0 已 完成 

2 f ( 哈 希 值 ) 0 11 9 0 0 0 2 0 已 完成 

| 


图 5-24 运行 转换 part_repeat transform 


从 图 5-24 中 执行 结果 窗口 的 “步骤 度量 选项 卡 可 以 看 出 ,文本 文件 输入 "控件 输入 11 
条 数据 并 写 入 该 控件 中 ;“ 唯 一 行 ( 哈 希 值 )” 控 件 读 取 “文本 文件 输入 "控件 中 的 11 条 数据 ， 
其 中 写 人 该 控件 9 条 数据 ,拒绝 2 条 数据 。 也 就 是 说 ,文件 people. txt 中 有 2 条 数据 与 其 他 
数据 是 不 完全 重复 的 。 

单 击 图 5-24 中 的 “唯一 行 ( 哈 希 值 ) 控 件 ,再 单 击 执行 结果 窗口 的 Preview data 选项 
卡 , 查 看 是 否 消除 文件 people. txt 中 不 完全 重复 的 数据 ,具体 如 图 5-25 所 示 。 

从 图 5-25 中 可 以 看 出 ,文件 people. txt 中 没有 重复 的 数据 ,说明 通 过 Kettle 工具 实现 
了 消除 不 完全 重复 数据 的 功能 。 
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热 行 结果 Dx 
目 日 志 |@O 执行 历史 |: 三 rnea |7 性 能 图 | 位 Metrics |@ Preview data 
@ S(TransPreview.FirstRows-Label) © $(TransPreview.LastRows.Label) © $(TransPreview.Off.Label) 
£ Name Userlevel Phone VisistTime < 
1 garcia MemberUser 15201011506 2019-03-17 11:59:12 
2 anderson GeneralUser 13105916651 2019-04-02 12:00:32 
3 sharma MemberUser 15803924337 2019-04-12 09:45:33 
4 smith GeneralUser 15905741651 2019-04-22 09:55:44 
5 johnson MemberUser 15804058842 2019-05-23 09:12:23 
6 garcia GeneralUser 13404840224 2019-05-17 08:03:12 
7 anderson GeneralUser 13202438054 2019-05-12 12:17:53 
8 jones MemberUser 13606051520 2019-05-22 10:21:03 
9 johnson GeneralUser 15000220514 2019-11-16 12:56:47 ` 


图 5-25 查看 是 否 消除 文件 people. txt 中 不 完全 重复 的 数据 


需要 注意 的 是 ,在 进行 不 完全 重复 数据 去 重 时 需要 合理 选择 字段 ,否则 有 可 能 造成 数据 
丢失 的 情况 。 上 述 的 不 完全 去 重 例子 中 ,如 果 只 选择 字段 Name 和 字段 UserLevel, 容 易 造 
成 源 文件 people. txt 中 第 2 条 数据 和 第 7 条 数据 丢失 。 

注意 : 本 小 节操 作 只 是 将 文件 people. txt 的 数据 读 取 到 Kettle 中 进行 不 完全 去 重 处 
理 , 并 不 会 改变 文件 people. txt 的 原始 数据 ,如 需 保 存 处 理 后 的 数据 , 须 添加 相关 输出 控件 。 


5.2 缺失 值 处 理 


缺失 值 是 指数 据 集中 某 个 或 某 些 属性 的 值 是 不 完整 的 ,产生 的 原因 主要 有 人 为 原因 和 
机 械 原因 两 种 ,其 中 机 械 原因 是 由 于 机 器 故障 造成 数据 未 能 收集 或 存储 失败 ,人 为 原因 是 由 
主观 失误 或 有 意 隐瞒 造成 的 数据 缺失 。 本 节 将 针对 缺失 值 的 处 理 进行 详细 讲解 。 


5.2.1 缺失 值 清洗 策略 


制定 合理 的 缺失 值 数 据 处 理 策 略 , 不 仅 可 以 提升 重要 性 
缺失 值 数据 处 理 的 效率 ,还 可 以 使 处 理 后 数据 的 可 靠 高 
性 得 到 保证 ,提高 最 终 分 析 结 果 的 准确 性 。 缺 失 值 的 
S lase asa Š 缺失 率 低 缺失 率 高 
处 理 方法 很 多 ,这 里 建议 大 家 在 清洗 缺失 值 时 ,首先 计 重要 性 高 | 重要 性 高 
算数 据 源 字段 缺失 值 比例 ,之 后 根据 数据 缺失 率 和 重 


要 性 制定 不 同 的 策略 。 下 面 通过 一 张 图 描述 缺失 数据 Š 缺失 率 低 | 缺失 素 高 


重要 性 低 重要 性 低 
低 


的 缺失 率 以 及 重要 性 划分 的 4 种 情况 ,具体 如 图 5-26 
所 示 。 

根据 图 5-26 确定 缺失 值 的 范围 并 制定 对 应 的 策 图 5-26 缺失 值 范围 
略 。 根 据 缺 失 值 的 范围 采用 对 应 的 策略 见 表 5-1。 


表 5-1 根据 缺失 值 的 范围 采用 对 应 的 策略 


缺失 值 的 范围 对 应 的 策略 


D 尝试 从 其 他 渠道 获取 数据 进行 补 全 ; 
重要 性 高 .缺失 率 高 的 数据 | D 通过 对 其 他 字段 的 数据 进行 分 析 、 计 算 等 方式 获取 合理 值 进行 补 全 ; 
(3) 去 除 字段 但 要 在 结果 中 进行 标注 


119 


120 


数据 清洗 


续 表 


缺失 值 的 范围 对 应 的 策略 


D 通过 对 字段 自身 的 数据 进行 分 析 、 计 算 等 方式 获取 合理 值 进 行 补 全 ， 


重要 性 高 .缺失 率 低 的 数据 | (。) 通过 自身 的 经 验 与 业务 知识 对 缺失 值 数据 进行 人 为 补 全 


重要 性 低 .缺失 率 高 的 数据 | 直接 去 除 该 字段 


重要 性 低 .缺失 率 低 的 数据 | 可 以 不 处 理 或 者 进行 简单 的 填充 


5.2.2 去 除 缺失 值 


数据 缺失 分 为 两 种 : 一 种 是 行 记录 的 缺失 ,这 种 情况 又 称 数据 记录 丢失 ; 另 一 种 是 列 值 
的 缺失 , 即 由 于 各 种 原因 导致 的 数据 记录 中 某 些 列 的 值 空缺 。 

去 除 缺 失 值 数据 通常 有 两 种 情况 : 一 种 是 删除 存在 遗漏 信息 属性 值 的 对 象 的 列 ; 另 一 
种 是 删除 存在 遗漏 信息 属性 值 对 象 的 记录 ,从 而 得 到 一 个 完备 的 信息 表 。 缺 失 值 数据 在 缺 
失 值 所 在 的 列 对 最 终 分 析 结 果 无 重要 意义 或 存在 缺失 值 的 记录 与 初始 数据 集 的 数据 量 相 比 
非常 小 的 情况 下 非常 有 效 。 

在 数据 量 小 的 情况 下 ,通过 人 为 观察 就 可 以 轻易 从 数据 集中 找到 存在 缺失 值 的 记录 ; 若 
数据 量 比较 大 ,那么 通过 人 为 观察 的 方式 查找 存在 缺失 值 的 记录 是 非常 耗 时 的 ,因此 ,可 利 
用 统计 学 方法 筛选 出 包含 缺失 值 的 对 象 , 然 后 通过 计算 得 出 每 个 字段 的 缺失 率 ,去除 缺失 率 
高 的 字段 ,最 后 再 对 数据 进行 过 滤 ,将 有 缺失 值 的 记录 过 滤 掉 ,这 样 就 可 以 避免 数据 大 量 
= 

假设 现在 有 一 份 就 业 人 员 的 收入 数据 文件 revenue. txt, 由 于 某 种 原因 ,在 数据 采集 的 
过 程 中 产生 了 大 量 的 缺失 值 数据 。 文 件 revenue. txt 的 具体 内 容 如 图 5-27 所 示 。 
garcia Female 5000 California < 
anderso Female 6000 California 
sharma 4000 New Jersey 
Smith Female 8000 New York 
johnson 9000 New York 
garcia Female 10000 New York 
anderso 12000 California 
jones Male 3000 New York 
johnson 5500 New York 


jones 6000 California 
arcia Female California z 


图 5-27 文件 revenue. txt 的 具体 内 容 


下 面 通过 Kettle 工具 分 步骤 讲解 如 何 去 除 原始 数据 集中 的 缺失 值 ,具体 步骤 如 下 。 
1. 打开 Kettle 工具 .创建 转换 


使 用 Kettle 工具 创建 转换 delete_missing_value, 并 添加 “文本 文件 输入 ”控件 “字段 选 
择 ? 控 件 “ 过 滤 记 录 ? 控 件 “Excel 输出 ”控件 “ 空 操作 (什么 也 不 做 )” 控 件 以 及 Hop 跳 连接 
线 , 具 体 效 果 如 图 5-28 所 示 。 
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NX delete missing va... FZ 
P OH DD. eñ EE E lo ~- 


图 5-28 创建 转换 delete missing value 


2. 配置 “文本 文件 输入 "控件 
双击 图 5-28 中 的 “文本 文件 输入 ”控件 ,进入 “文本 文件 输入 "界面 ,如 图 5-29 所 示 。 


电文 本 文件 给 入 =m sx 


DEER 文本 文件 输入 
文件 和、 内 容 ] 错误 处 理 | trg] 字段 | 其 他 输出 字段 


文件 或 目录 ° e 
规则 表达 式 ° 
TERRAS) ° 
选中 的 文件 | 关 文件 /目录 AEF MEASG) ER 包含 了 目录 
x 
MEDERE 
ASRA P) 2 
一 
(asar J mso | 


图 5-29 “文本 文件 输入 ”界面 


在 图 5-29 中 单 击 “浏览 ?按钮 ,选择 要 去 除 缺 失 值 的 文件 revenue. txt, 效 果 如 图 5-30 
所 示 。 

在 图 5-30 中 单 击 “ 增 加 ”按钮 ,将 要 去 除 缺失 值 的 文件 revenue. txt 添加 到 “文本 文件 输 
入 ”控件 中 ,具体 效果 如 图 5-31 所 示 。 

在 图 5-31 中 单 击 “ 内 容 ” 选 项 卡 , 切 换 到 “内 容 ” 选 项 卡 界面 ,如 图 5-32 所 示 。 

在 图 5-32 中 清除 分 隔 符 处 的 默认 分 隔 符 “;”, 单 击 Insert TAB 按钮 ,在 分 隔 符 处 插入 
一 个 制 表 符 ;取消 勾 选 “ 头 部 ” 复 选 框 , 若 不 取消 ,在 进行 数据 抽取 操作 时 会 排除 文件 第 一 行 
的 数据 。“ 内 容 ” 选 项 卡 的 配置 如 图 5-33 所 示 。 

在 图 5-33 中 单 击 “ 字 段 ” 选 项 卡 , 切 换 到 “字段 "选项 卡 界面 ,如 图 5-34 所 示 。 

在 图 5-34 中 ,根据 文件 revenue. txt 的 内 容 添 加 对 应 的 字段 名 称 , 并 指定 数据 类 型 。 需 
要 注意 的 是 , 制 表 符 可 看 作 是 由 多 个 空格 组 成 ,因此 在 “去 除 空 字符 串 方式 ? 列 时 ,所 添加 的 


2 和 
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P. 文本 文件 给 入 


lele 
PEER 文本 文件 给 入 
上 文件、 内 容 | 错误 处 理 | 过 涉 | 字段 | 其 他 输出 字段 | 
XH o [an] pei 
规则 表达 式 ° 
正则 表达 式 (排除 ) ° 
迁 中 的 文件 


+ 


图 5-30 选择 要 去 除 缺 失 值 的 文件 revenue. txt 


P. 文本 文件 输入 [= ñ 
DEER xA 
ETICO CEE EE E] 
文人 或 目录 o [za] ^ 
规则 表达 式 ° 
TERASON) ° 
选中 的 文件 : 


£ 文件 /目录 通配符 Beas) 


=. 


[Ca Lao |[ msea || mo | 


图 5-31 添加 文件 revenue. txt 至 控件 “文本 文件 输入 ” 


局 ,文本 文件 给 入 
PEER “文本 文件 给 入 
文件 [SE -ti 训 让 理 | 过 小 | 字段 | 其 他 坊 出 字 息 | 


文件 类 型 |CSV |] 
=, —— 
文本 限定 符 “ 
在 文本 限定 符 里 允许 换行 ? 回 ] 
F Z= 3 


头 部 E| 头 部 行 数 量 1 
回民 36 生 数量 i 
包装 行 ? 回 以 时 间 包装 的 行 数 二 
分 页 布局 (printout)? F] 每 页 记录 行 数 [80 


[ meo J masa J wao ) 


图 5-32 “内 容 ” 选 项 卡 界面 
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征文 本 文件 输入 


EE tsisat2E| sss] 邱 耻 | 其 他 纺 出 字段 


步骤 名 称 文本 文件 输入 


文件 类 型 |CSV 


Sm ss 


= 
文本 限定 符 ` 


在 文本 限定 符 里 多 许 换行 ?器 
WFF 


as D sasan T 
尾部 回民 #6 数量 | 

包装 行 ? 回 以 时 间 包装 的 行 到 

AT (printout)? 回 每 页 记录 行 数 


£ 
80 
zasa [o 


[ao] Emsa] hawo] 


图 5-33 “内 容 " 选 项 卡 的 配置 


图 5-34 “字段 ”选项 卡 界面 


字段 都 应 选择 “不 去 掉 空格 ”, 否 则 在 抽取 数据 操作 时 会 把 制 表 符 当 作 空 格 去 除 ,而 不 能 把 制 
表 符 作为 分 隔 符 实现 文本 文件 内 容 的 分 隔 , 如 图 5-35 所 示 。 


D, 文本 文件 给 入 =m] = 
DEER “文本 文件 输入 

文件 [内 容错 误 处 理 [过 湾 [23 ee] 

ak 1 格式 位置 Ke Cm s 货币 类 型 “小数 分组。 Nullif RAO 去 除 空 字 符 率 方式 ”~ 
1 | Name String >=] 

2 |Sex String TESSE 

3 [Pay Integer 不 去 掉 空 格 

4 [Area String 不 去 站 空格 21 
F 上 
nse J umasa J| saa.) 


图 5-35 添加 字段 


在 图 5-35 中 单 击 “ 预 览 记 录 ” 按 钮 ,查看 文件 revenue. txt 中 的 数据 是 否 成 功 抽取 到 文 
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本 文件 输入 流 中 ,具体 效果 如 图 5-36 所 示 。 


EB == leel x | 
DESAHAN BIR (11 rows) 
Ê Name Sex Pay Area 
1 garda Female 5000 California 
2 anderso Female 6000 California 
3 sharma <null> 4000 New Jersey 
4 smith Female 8000 New York 
5 johnson <null> 9000 New York 
6 garcia Female 10000 New York 
7 anderso <null> 12000 California 
8 jones Male 3000 New York 
9 johnson — <null> 5500 New York 
10 jones <null> 6000 California 
11 garcia Female <null> California 
[me Jl nsaea | 
图 5-36 ”预览 数据 


从 图 5-36 中 可 以 看 出 ,文件 revenue. txt 中 的 数据 已 经 成 功 抽取 到 文本 文件 输入 流 中 ， 
单 击 " 关 闭 ” 一 “确定 ”按钮 ,完成 “文本 文件 输入 ”控件 的 配置 。 


3. 配置 “字段 选择 ”控件 
双击 图 5-28 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ”界面 ,如 图 5-37 所 示 。 


Et 选择 /改名 值 = z 
DEER Fms 
选择 和 修改 、、 移 除 | 元 数据 | 
字段: 
En] 改名 成 长 度 精度 
+ less) 
包含 未 指定 的 列 按 名 称 排序 回 


图 5-37 “选择 /改名 值 ? 界 面 


在 图 5-37 中 “选择 和 修改 ”选项 卡 的 “字段 名 称 ” 处 手动 添加 文本 文件 输入 控件 输出 的 
所 有 数据 字段 ,也 可 以 单 击 “ 获 取 选 择 的 字段 ”按钮 ,Kettle 工具 自动 检索 并 添加 文本 文件 输 
入 控件 输出 的 所 有 数据 字段 ,具体 如 图 5-38 所 示 。 

在 图 5-38 的 “ 移 除 ” 选 项 卡 中 添加 要 移 除 的 字段 名 称 ,这 里 移 除 的 是 Sex 字段 ,如 图 5-39 
所 示 。 

在 图 5-39 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 


4. 配置 “过 滤 记录 ”控件 
双击 图 5-28 中 的 “过 滤 记 录 ” 控 件 ,进入 “过 滤 记 录 ” 界 面 ,如 图 5-40 所 示 。 
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= | 器 


Gm å ë 


5-38 ”添加 字段 


+ 
[aieidy] E ieldy 


Kvalue> 


gm 
[One] [ meo |[ mo] 


图 5-40 “过 滤 记 录 ” 界 面 


在 图 5-40 中 的 "条件 ”处 设置 过 滤 的 条 件 , 过 滤 掉 有 缺失 值 的 数据 字段 (这 里 是 过 滤 


Name, Pay 和 Area 字段 中 的 缺失 值 ) 。 单 击 左边 的 二 field> 框 ,弹出 “字段 ?对 话 框 , 选 择 要 
过 滤 的 字段 Name. 具 体 如 图 5-41 所 示 。 


在 图 5-41 中 单 击 “确定 ”按钮 ,完成 过 滤 字 段 Name 的 选择 。 


单 击 图 5-40 中 的 “= 二” 框 ,弹出 “函数 :” 对 话 框 ,选择 过 滤 条 件 ( 这 里 选择 的 是 IS 
NULL) ,具体 如 图 5-42 所 示 。 


3265 数据 清洗 


Pay (integer) STARTS WITH 
Area (String) ENDS WITH 


[amo |[ mo | 


图 5-41 “字段 "对话 框 图 5-42 “函数 :" 对 话 框 


在 图 5-42 中 单 击 “ 确 定 "按钮 ,完成 过 滤 条 件 的 选择 。 字 段 Name 的 过 滤 设 置 如 图 5-43 


所 示 。 
B misak TES 
SEER 过 涉 沁 录 

Atruna E 
false 数据 给 消 要 : Ë 

条件 

s +E 

Name | [ES NULL E 

(Sree) [aso ][ mso ] 


图 5-43 ”字段 Name 的 过 滤 设 置 


在 图 5-43 中 单 击 符号 “十 ”增加 过 滤 条 件 ,具体 如 图 5-44 所 示 o 


S 过 涉 沁 录 = m = | 
PEZ msez 
true 玫 给 步 要 : ç] 
falses | +| 
条 件 : 
+ 
国 
Name IS NULL 
AND 
null = [] s| 
OnHelp [_ azo mo | 


E 5-44 增加 过 滤 条 件 


第 5 章 数据 的 清洗 与 检验 


在 图 5-44 中 单 击 AND, 弹 出 “操作 符 :” 对 话 框 ,选择 操作 符 ( 这 里 选择 的 是 OR) ,如 
图 5-45 所 示 。 

在 图 5-45 中 单 击 “ 确 定 ” 按 钮 ,完成 操作 符 的 选择 。 

单 击 图 5-44 中 的 “null = [ ]”, 添 加 过 滤 字 段 , 具 体 如 图 5-46 所 示 。 


级 别 1. 选择 向 上 到 上 一 级 + 
field> 


Kvalue> 


Cao ][ wao | 


图 5-45 选择 操作 符 图 5-46 ”添加 过 滤 字 段 


在 图 5-46 中 单 击 左边 的 二 field> 框 ,弹出 * 字 段 ? 对 话 框 , 选 择 要 过 滤 的 字段 Pay; 单 击 
“二 ” 框 ,弹出 “函数 :” 对 话 框 ,选择 过 滤 条 件 ( 这 里 选择 的 是 IS NULL). FE Pay 的 过 滤 设 
置 如 图 5-47 所 示 。 


| | 级 别 l 选择 疝 上 到 上 一 级 + 
ay | [ES NULL E a 
E —] 3 

or) [Cazo ][ wo ] 


图 5-47 字段 Pay 的 过 滤 设 置 


在 图 5-47 中 单 击 符号 “十 ?增加 过 滤 条 件 , 具 体 如 图 5-48 所 示 。 


E msz = 
PEER has 
发 送 true 数 据 给 步 村 : 
发 兰 false 数据 给 步 要 : = 
条 件 
[== 级 别 1 选择 问 上 到 上 一 级 +Ë 
Pay IS NULL 
AND 
null = [] - 
[Ohee] [azo J| mao | 


图 5-48 ”增加 过 滤 条 件 
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在 图 5-48 中 单 击 AND, 弹出 “操作 符 :” 对 话 框 ,选择 操作 符 ( 这 里 选择 的 是 OR) ,如 


图 5-49 所 示 。 


在 图 5-49 中 单 击 “ 确 定 ” 按 钮 ,完成 操作 符 的 选择 。 
单 击 图 5-48 中 的 “null = [ ]”, 添 加 过 滤 字 段 , 具 体 如 图 5-50 所 示 。 


E 过 小 记录 =e] x) 
步 要 名 称 WSR 
Atruna = 
falsema DE = 
条 件 : 
] 级 别 2. 选择 向 上 到 上 一 级 十 上 
Etieidy] E ] [Eiei 
Kvalue> ` 
eA 


图 5-49 选择 操作 符 


图 5-50 添加 过 滤 字 段 


在 图 5-50 中 单 击 左边 的 二 field> 框 ,弹出 * 字 段 ?对 话 框 ,选择 要 过 滤 的 字段 Area; 单 击 
“二 ” 框 ,弹出 “函数 :”" 对 话 框 ,选择 过 滤 条 件 ( 这 里 选择 的 是 IS NULL)。 字 段 Area 的 过 滤 


设置 如 图 5-51 所 示 。 


级 别 2. 选择 向 上 到 上 一 级 


[| 


[aso ][ wao ] 


图 5-51 字段 Area 的 过 滤 设 置 


在 图 5-51 中 连续 单 击 两 次 “确定 ”按钮 ,查看 设置 的 过 滤 条 件 , 如 图 5-52 所 示 。 


E 过 小 记录 一 > 


发 送 false 数 据 给 步 村: 


单 击 编辑 子 条 件 - 
tü 


Name IS NULL 


Pay IS NULL 
Àrea IS NULL 


Ceo ][ sao ] 


图 5-52 ”设置 的 过 滤 条 件 
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在 图 5-52 中 “发 送 true 数据 给 步骤 : "后 的 下 拉 列 表 中 选择 “ 空 操作 ”, 将 包含 缺失 值 的 


” 


行 数据 放 在 “ 空 操作 ”控件 中 ;在 “发 送 false 数据 给 步 又: "后 的 下 拉 列 表 中 选择 “Excel 输 
Hh”, 将 没有 缺失 值 的 行 数据 输出 到 Excel 文件 中 ,具体 如 图 5-53 所 示 。 


E msez [= = 
DEER WSR 
Altru [EE AA = 
Sk 
+Ë 
Name IS NULL 
OR 
ç 
Pay IS NULL 
; OR Àrea IS NULL 
(Onar) [azo J| wao | 


图 5-53 发送 true/false 数据 给 相关 步骤 的 配置 
在 图 5-53 中 单 击 “确定 ”按钮 ,完成 “过 滤 记 录 ” 控 件 的 配置 。 


5. 配置 “Excel 输出 ”控件 


双击 图 5-28 中 的 “Excel 输出 ?控件 ,进入 "Excel 输出 ?界面 ,如 图 5-54 所 示 。 


站 Excel 输出 


=m = 


PEER ExceM&:H 


(iS ss |msc] +] 


文件 名 file 


MELER [FJ 
启动 时 不 创建 文件 回 


ME 


扩展 名 xls 
在 文件 名 里 包含 步 要 数 ? 回 


(Orere) 


[Caso JE wao J 


H 5-54 


“Excel 输出 ”界面 


在 图 5-54 中 单 击 “ 浏 览 ” 按 钮 ,选择 要 输出 的 文件 路 径 , 如 图 5-55 所 示 。 
在 图 5-55 中 单 击 “ 确 定 ” 按 钮 ,完成 “Excel 输出 ”控件 的 配置 。 


6. 运行 转换 delete_missing_value 


单 击 转换 工作 区 顶部 的 圆 按钮 ,运行 创建 的 转换 delete_missing_value ,实现 去 除 文件 
revenue. txt 中 的 缺失 值 .具体 如 图 5-56 所 示 。 

从 图 5-56 中 执行 结果 窗口 的 “步骤 度量 ”选项 卡 可 以 看 出 ,“ 文 本 文件 输入 ”控件 输入 11 
条 数据 并 写 入 该 控件 ;“ 字 段 选择 ”控件 读 取 “ 文 本 文件 输入 ”控件 的 11 条 数据 并 写 人 该 控 
件 ;“ 过 滤 记 录 ” 控 件 读 取 “ 字 段 选择 ”控件 的 11 条 数据 并 写 入 该 控件 ;通过 条 件 过 滤 操 作 使 
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a Ese [em] = J 
PEREP Excel 输出 


文件 、、 内 容 | 格式 | 字段 | 
文件 名 |CAUsers\admin\Desktop\file ° 
@i#*+E F] 
启动 时 不 创建 文件 回 
扩展 名 xls ° 


mamas 


A [ nao |[ mo | 


图 5-55 选择 要 输出 的 文件 路 径 


[$£ delete missing value 33 
P +H D. eñ BR FJ 10% -~ 


了 
执行 结果 Dx 
Ë B= (@ nnne [Z maia". [7 性 印加 | Metrics] dp Preview data | 

® 

£ DEER 复制 的 记录 行 数 读 5 输 和 输出 更 新 拒绝 错误 激活 入 
1 文本 文件 输入 0 0 11 11 0 工 0 0 已 完成 

2 ”字段 选择 0 11 11 0 0 0 0 0 已 完成 

3 MR 0 1 n 0 0 0 0 0 Es 
4 fE (什么 也 不 钢 0 1 £ 0 0 0 0 0 已 完成 
5 Excel 埠 出 0 10 10 0 10 0 0 0 已 完成 = 
| 


图 5-56 ”运行 转换 delete_missing_value 
“ 空 操作 ”控件 读 取 并 写 入 1 条 数据 ,“Excel 输出 ”控件 读 取 并 写 入 10 条 数据 ,最 终 输出 。 
7. 查看 文件 file. xls 


查看 “Excel 输出 ?控件 输出 的 文件 file. xls 是 否 还 含有 缺失 值 数据 。 文 件 file. xls 的 内 
容 如 图 5-57 所 示 。 

从 图 5-57 中 可 以 看 出 ,文件 中 的 数据 没有 缺失 值 ,说 明 我 们 已 经 完全 去 除了 原始 数据 
集 ( 即 文件 revenue. txt) 中 的 缺失 值 。 


5.2.3 填充 缺失 值 


数据 挖掘 中 面 对 的 通常 都 是 大 型 的 数据 库 , 它 的 属性 有 几 十 个 甚至 几 百 个 ,因为 其 中 某 
个 属性 值 的 缺失 而 放弃 大 量 其 他 的 属性 值 ,这 种 删除 是 对 信息 的 极 大 浪费 ,所 以 产生 了 插 补 
缺失 值 的 思想 与 方法 。 常 用 的 填充 缺失 值 方法 具体 如 下 。 
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A I B I c 
Name Pay Area 
garcia 5.000.00 Califomia 
anderso 6,000.00 Califomia 
sharma 4,000.00 New Jersey 
smith 8.000.00 New York 
johnson 9,000.00 New York 
garcia 10,000.00 New York 
anderso 12,000.00 Califomia 
jones 3,000.00 New York 
johnson 5,500.00 New York 
jones 6.000.00 California 


图 5-57 文件 file. xls 的 内 容 


1. 均值 填充 


数据 的 属性 分 为 定 距 型 和 非 定 距 型 。 如 果 缺 失 值 是 定 距 型 的 ,就 以 该 属性 存在 值 的 平 
均值 插 补 缺失 的 值 ;如 果 缺 失 值 是 非 定 距 型 的 ,就 根据 统计 学 中 的 众 数 原理 ,用 该 属性 的 众 
数 ( 即 出 现 频率 最 高 的 值 ) 补 齐 缺 失 的 值 。 


2. 热 卡 填充 


对 于 一 个 包含 缺失 值 的 对 象 , 热 卡 填充 方法 会 在 完整 数据 集中 找到 一 个 与 它 最 相似 的 
对 象 的 值 进行 填充 。 对 于 不 同 的 问题 ,可 能 会 选用 不 同 的 标准 对 相似 对 象 进行 判定 ,从 概念 
上 理解 该 方法 很 简单 ,利用 数据 间 的 关系 进行 缺失 值 评估 。 热 卡 填充 方法 的 缺点 在 于 难以 
定义 相似 标准 ,人 为 主观 因素 较 多 。 


3. 回归 填充 


将 缺失 值 变量 (自身 字段 ) 作 为 因 变 量 , 相 关 变量 (其 他 字段 ) 作 为 自 变量 进行 回归 拟 合 ， 
用 预测 值 作为 填补 值 , 需 要 注意 的 是 自 变量 的 数据 尽量 是 完整 的 。 

与 前 述 几 种 捅 补 方法 比较 ,回归 填充 方法 的 优势 是 可 充分 利用 数据 库 中 的 信息 ,弊端 主 
要 有 两 点 : 第 一 ,该 方法 是 无 偏 估计 ,但 容易 忽视 随机 误差 低估 标准 差 和 其 他 未 知性 质 的 
测量 值 ,而 且 这 一 问题 会 随 着 缺失 信息 的 增多 变 得 更 加 严重 ;第 二 ,研究 者 必须 假设 存在 缺 
失 值 所 在 的 变量 与 其 他 变量 存在 线性 关系 ,大 多 数 情 况 下 这 种 关系 是 不 存在 的 。 


4. 多 重 填充 


多 重 估 算是 由 Rubin 等 人 于 1987 年 建立 起 的 一 种 数据 扩充 和 统计 分 析 方 法 ,作为 简单 
估算 的 改进 产物 。 首 先 ,多重 估 算 技 术 用 一 系列 可 能 的 值 蔡 换 每 个 缺失 值 ,以 反映 被 替换 的 
缺失 数据 的 不 确定 性 。 然 后 ,用 标准 的 统计 分 析 过 程 对 多 次 蔡 换 后 产生 的 若干 个 数据 集 进 
行 分 析 。 最 后 ,把 来 自 各 个 数据 集 的 统计 结果 进行 综合 ,得 到 总 体 参 数 的 估计 值 。 

由 于 多 重 估算 技术 并 不 是 用 单一 的 值 蔡 换 缺失 值 : 而 是 试图 产生 缺失 值 的 一 个 随机 样 
本 ,这 种 方法 可 以 反映 出 由 于 数据 缺失 而 导致 的 不 确定 性 ,产生 更 加 有 效 的 统计 推断 。 

假设 现在 有 一 份 社会 人 员 调 查 信息 的 数据 文件 people_survey. txt. 由 于 某 种 原因 ,在 
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数据 采集 的 过 程 中 产生 了 大 量 的 缺失 值 ,文件 people_survey. txt 的 内 容 如 图 5-58 所 示 。 


Private 


Private 
Private 
Private 
Private 
State-gov 
Federal-gov 
Private 


Private 
Self-emp-not-inc 
Private 
Private 


Private 
Private 
Private 
Private 
Private 
Private 


图 5-58 文件 people survey. txt 的 内 容 


下 面 通过 Kettle 工具 ,分 步骤 讲解 使 用 平均 值 填充 法 对 文件 people_survey. txt 中 的 缺 
失 值 进 行 填充 ,具体 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 fill_missing_value, 并 添加 “文本 文件 输入 ”控件 “过 滤 记 录 ” 
控件 “ 空 操作 (什么 也 不 做 ) ”控件 “替换 NULL 值 ” 控 件 “ 合 并 记录 ”控件 “字段 选择 ” 控 
件 以 及 Hop 跳 连接 线 , 具 体 效 果 如 图 5-59 所 示 。 


($X fill_missing_value £3 
b +H D. @ nD ZEE = 10% ~ 


空 操作 (什么 也 不 氏 2 合并 记录 字段 选择 


图 5-59 ”转换 fill_missing_value 的 内 容 


2. 配置 “文本 文件 输入 ”控件 


双击 图 5-59 中 的 “文本 文件 输入 ”控件 ,进入 “文本 文件 输入 ”界面 .如 图 5-60 所 示 。 
在 图 5-60 中 单 击 “浏览 ?按钮 ,选择 要 填充 缺失 值 的 文件 people_survey. txt, 效 果 如 
图 5-61 所 示 。 
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P. 文本 文件 给 入 El | 
DEER “文本 文件 输入 
文件 \\、 内 容 | 错误 处 理 | 过 涉 | 字段 | 其 他 输出 字段 | 


zanna ° [x=] ao < 
规则 表达 式 ° 
EUSA) ° 
EPR |f| aR 通配符 ARASH) ER SAFAR 
E Ís) 
|———nƏ— —  q.—TFY 8 
从 上 一 步 要 获取 文件 名 
从 /前 的 步 邮 接受 文件 名 加 
AARRE C - 
[sss] (ao J masm mao J 
图 5-60 “文本 文件 输入 ”界面 
P, 文本 文件 给 入 ole] ñ 
PEER “文本 文件 输入 
文件 和、 内 容错 处 理 | 过 沪 | 字段 其 他 输出 字段 | 
HE * [ma] Ee A 
规则 表达 式 ° 
TEUAS) ° 
选中 的 文件 ç 文件 /目录 — 通配符。 通配符 号 (排除 ) ER 包 合子 目录 
a 
=s) 
[ss] 
MESERIE 
ADRE E) ~ 
KA] [meo J| mam ][ mac J 


图 5-61 选择 要 填充 缺失 值 的 文件 people survey. txt 


在 图 5-61 中 单 击 “ 增 加 ”按钮 ,将 要 填充 缺失 值 的 文件 people_survey. txt 添加 到 “文本 
文件 输入 "控件 中 ,具体 效果 如 图 5-62 所 示 。 

在 图 5-62 中 单 击 “ 内 容 ” 选 项 卡 , 切 换 到 “内 容 ” 选 项 卡 界面 ,如 图 5-63 所 示 。 

在 图 5-63 中 清除 分 隔 符 处 的 默认 分 隔 符 “;”, 单 击 Insert TAB 按钮 ,在 分 隔 符 处 插入 
一 个 制 表 符 ;取消 色 选 “ 头 部 复 选 框 , 若 不 取消 , 则 在 进行 数据 抽取 操作 时 会 排除 文件 第 一 
行 的 数据 。“ 内 容 ” 选 项 卡 的 配置 如 图 5-64 所 示 。 

在 图 5-64 中 单 击 “ 字 段 ” 选 项 卡 , 切 换 到 “字段 "选项 卡 界面 ,如 图 5-65 所 示 。 

在 图 5-65 中 根据 文件 people_survey. txt 的 内 容 添 加 对 应 的 字段 名 称 , 并 指定 数据 类 
型 。 需 要 注意 的 是 , 制 表 符 可 看 作 是 由 多 个 空格 组 成 .因此 在 “去 除 空 字符 串 方式 ” 列 时 ,所 
添加 的 字段 都 应 选择 “不 去 掉 空 格 ”, 和 否则 在 抽取 数据 操作 时 会 把 制 表 符 当 作 空格 去 除 ,而 不 
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电文 本 文件 给 入 


[= J 
DEER “文本 文件 输入 
文件 、、 内 容 | 错误 处 理 | 过 涉 | 字段 | 其 他 婉 出 字段 | 
文人 或 目录 o [s] = 
规则 表达 式 ° 
正则 表达 式 排除 ) ° 


ERR: ç | 文件 /目录 


i [ C/Users/admin/Desktop/people_survey.bdt 


Emo J asar |[ msg | 


图 5-62 添加 文件 people_survey. txt 至 “文本 文件 输入 "控件 中 


P. KERMAA lelea 


步 要 名 称 “ 文 本 文件 输入 
文件 [PY >. taigataB| rris| 字段 | 其 他 输出 字段 | 
文件 类 型 [CSV 
ame ; © [senas] 
SARER - 
在 文本 限定 符 里 允许 换行 ? O 
mera 
388 国 头 部 行政 量 1 
Rg Dranga) 
包装 行 ? 回 a 1 
分 页 布局 (printout? F] SFER [80 


[Ca [ao ][ mser J| wwo | 


= 


图 5-63 “内 容 ” 选 项 卡 界面 


电文 本 文件 给 入 can) 


DEER 文本 文件 给 入 
文件 [网 窒 和 、 异 并 处 理 | 过 小 | 字段 | 其 他 给 出 字 息 | 

KHE [csv B 

sea mama o [isene] 

文本 限定 符 * 

在 文本 限定 符 里 允许 换行 ?加 

ji 字符 

as pisare 1 

尾部 回民 20 县 [1 

包装 行 ? 回 以 时 间 包装 的 行 歼 | 主 

分 页 布局 (printout)? Í] 每 Ti 记录 行 数 |80 

文档:88 |0 


=m EE 


图 5-64 “内 容 ” 选 项 卡 的 配置 
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P. 文本 文件 给 入 


BEER KEHRA 
文件 内 容 | 错误 处 理 [过 湾 F ee] 
EE 


图 5-65 “字段 "选项 卡 界面 
能 把 制 表 符 作为 分 隔 符 实现 文本 文件 内 容 的 分 隔 ,如 图 5-66 所 示 。 


P. 文本 文件 输入 


= m = 


步 村 名称“ 文本 文件 办 入 
文件 | 内容 [错误 处 理 [过 起 F ea] 


ERES 3 E 位 置 长 度 Wm 货币 类 型 小 数 S Nuli BA 去 除 空 字符 方式 ^ 


B] userid String mae E 
2 | hours per week Integer TEESE 

3 [works | String est |- 
i n S — OM 


w. 


图 5-66 添加 字段 


在 图 5-66 中 单 击 “ 预 览 记录 ”按钮 ,查看 文件 people_survey. txt 的 数据 是 否 成 功 抽取 
到 文本 文件 输入 流 中 ,具体 效果 如 图 5-67 所 示 。 


从 图 5-67 中 可 以 看 出 ,文件 people_survey. txt 的 数据 已 经 成 功 抽取 到 文本 文件 输入 
流 中 , 单 击 “关闭 ?一 “确定 ”按钮 ,完成 “文本 文件 输入 ”控件 的 配置 。 

将 字段 workclass 同 为 Private 值 的 字段 hours_per_week 值 相 加 求 均值 ,并 用 该 均值 
对 字段 userid 中 值 为 000016 的 hours_per_week 字段 存在 的 缺失 值 进行 填充 。 

3. 配置 “过 滤 记 录 ” 控 件 


双击 图 5-59 中 的 “过 滤 记 录 ” 控 件 , 进 入 “过 滤 记 录 ” 界 面 ,如 图 5-68 所 示 。 

在 图 5-68 中 的 “条 件 ” 处 设置 过 滤 的 条 件 , 由 于 从 图 5-67 中 可 以 看 出 字段 userid 为 
000016 用 户 的 hours_per_week( 即 每 周 工作 时 间 字 有 段 ) 存 在 缺失 值 ,而 它 的 workclass 字段 
值 为 Private, 因 此 可 以 将 过 滤 字 段 设 置 为 workclass、 过 滤 值 设置 为 Private 作为 过 滤 条 件 ， 
具体 如 图 5-69 所 示 。 

在 图 5-69 中 “发 送 true 数据 给 步骤 : ”下拉 列表 中 选择 * 空 操作 (什么 也 不 做 )”, 将 
workclass 字段 值 为 Private 的 数据 放 在 “ 空 操作 ”控件 中 ;在 “发 送 false 数据 给 步骤 : "后 的 
下 拉 列 表 中 选择 “ 空 操作 (什么 也 不 做 )2”, 将 workclass 字段 值 不 为 Private 的 数据 放 在 “ 空 
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£ 

1 

2 18 Private 
3 000003 40 <null> 
4 000004 40 Private 
5 000005 40 Private 
6 000006 45 Private 
7 000007 40 Private 
8 000008 20 State-gov 
9 000009 40 Federal-gov 
10 000010 60 Private 
11 000011 35 Private 
12 000012 45 Self-emp-not-inc 
13 000013 20 Private 
14 000014 55 Private 
15 000015 40 <null> 
16 000016 <null> Private 
17 000017 76 Private 
18 000018 50 Private 
19 000019 40 Private 
20 000020 50 Private 
21 000021 40 Private 


B msez llel sz 


DEER 过 涉 记录 
Altuena DE 2 
发 闫 false 数 据 给 步 可 = 
Sit: 
+ 
riera] E ] Fie 
<value» 
7 国 , 


图 5-68 “过 滤 记 录 ” 界 面 


B mser 
步 要 名 称 过 涉 记录 
发 送 true 数 据 给 步 要 : - 
发 详 false 数 据 给 步 棒 : 
条 件 : 

] 十 
Forkclass F m 
Private (String) id 


图 5-69 设置 过 滤 条 件 
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操作 (什么 也 不 做 )2” 控 件 中 ,具体 如 图 5-70 所 示 。 


B msza 
Altru [EEE (什么 也 不 的 = 
Hifalse RURA E: [SE (什么 也 不 后 ) 2] = 
条 件 
+Ë 
orkclass F ] 国 
ER | (String) Ë 
L 


图 5-70 配置 发 送 true/false 数据 给 相关 步骤 
在 图 5-70 中 单 击 “确定 ?按钮 ,完成 过滤 记录 ?控件 的 配置 。 
4. 配置 “替换 NULL 值 ” 控 件 


双击 图 5-59 中 的 “替换 NULL 值 ” 控 件 ,进入 “替换 NULL 值 ? 界 面 , 如 图 5-71 所 示 。 


T, MANULA lele] 
作业 名 称 ANULA 
昔 换 所 有 闻 段 的 null 值 
mes» e 
RESH Fl 
AB 日 期 = 
选择 字段 回 
选择 值 尖 型 回 
mem 
£ 类 型 Ber» ě 转换 掩 码 (日 期 ) k: > 
字段 
£ | 字段 BES» SRRA) k: — 
g 
(Cheie) oa | w= | [Emal 
L 


图 5-71 “替换 NULL ERE 


在 图 5-71 中 勾 选 “选择 字段 ” 复 选 框 ,并 在 “字段 " 框 添 加 字段 hours_per_week, 值 替换 


为 44(44 是 字段 为 hours_per_week 中 所 有 值 相 加 求 的 均值 .这 里 指 用 44 替换 字段 hours_ 
per_week 中 的 NULL 值 ) ,具体 如 图 5-72 所 示 。 


在 图 5-72 中 单 击 “确定 ”按钮 ,完成 “替换 NULL 值 ”控件 的 配置 。 
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T Benue 
作业 名称 SANUS 
苦 换 所 有 字段 的 nul 值 
mee» ° 
nssr O 
16B (日 期) - 
选择 字段 国 
meae 四 
(Be 
£ 类 型 Bes» Ren (AW) RESHAR 
字段 
s *@ Bus»  seejwi5 (日 期) emersa 


图 5-72 配置 “替换 NULL 值 " 控 件 


5. 配置 “合并 记录 ”控件 


双击 图 5-59 中 的 “合并 记录 ”控件 ,进入 “合并 行 (比较 )” 界 面 ,如 图 5-73 所 示 。 
在 图 5-73 中 “ 旧 数 据 源 : “后 的 下 拉 列 表 中 选择 “替换 NULL 值 ”在 “新 数据 源 : ”后 的 
下 拉 列 表 中 选择 “ 空 操作 (什么 也 不 做 )2”; 在 “匹配 的 关键 字 :“ 部 分 添加 关键 字段 , 即 


userid, 具 体 如 图 5-74 所 示 。 


D 合并 行 HD Gel a) (zarr 
步骤 名 称 合并 记录 SERR “合并 记录 
旧 数 据 源 : = RRRS: | 苦 换 NULL 值 
新 数据 源 : = 新 数据 源 : | 空 操作 (HADE 2 ~ 
标志 字段 flagfield 标志 字段 flagfield 
本 的 关键 字 : BEFA: 的 关键 字 : BEFA: 
£ xwe £ mase £ wes £ mase 
$ 1 1 userid 1 
[Ora] [| meo J| mo] [Os] [aso] mo J 
图 5-73 “合并 行 (比较 )” 界 面 图 5-74 ”配置 “合并 记录 ”控件 


“合并 记录 ”控件 主要 是 将 两 个 数据 源 ( 旧 数据 源 、 新 数据 源 ) 进 行 合并 ,标志 字段 主要 是 
将 每 条 数据 进行 标记 ,新 数据 源 的 数据 会 标记 为 new, 旧 数据 源 的 数据 会 标记 为 deleted, 若 
新 .上 昌 数 据 源 中 存在 相同 的 关键 字段 设置 的 数据 , 则 两 个 数据 源 进 行 合并 后 ,只 会 保存 从 新 
数据 源 中 获取 的 数据 ,并 以 identical 进行 标记 。 


在 图 5-74 中 单 击 “ 确 定 ” 按 钮 ,完成 “合并 记录 ”控件 的 配置 。 


6. 配置 “替换 NULL 值 2” 控 件 


"z, 莹 换 NULL 值 
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双击 图 5-59 中 的 “替换 NULL 值 2” 控 件 , 进 入 “替换 NULL 值 ? 界 面 , 如 图 5-75 所 示 。 


作业 名 称 ANUL 2 
昔 换 所 有 字段 的 null 值 


ancak N 
aB (Em | 


选择 字 银 回 


运 泽 值 类 型 下 
值 类 型 


Bs» ë 转换 掩 码 (日 期 ) 


sme | maaa J 


图 5-75 


“替换 NULL 值 ” 界 面 


在 图 5-75 中 多 选 “选择 字段 " 复 选 框 ,并 在 “字段 " 框 添加 字段 为 workclass, 值 替换 为 
Private( 这 里 用 Private 替换 字段 workclass 中 的 NULL 值 ) ,具体 如 图 5-76 所 示 。 


T, MANULA = = 


作业 名 称 MANULI 2 


BAFE ENA 
mm» °. 
m= J 
f€ (Am) - 
Eso [| 
East FJ 
mem 
£ am Bus» MARB 上 日 期) 设置 人 字符 囊 
字段 
£ se Bss» #9 (日 期 ) 设置 人 字符 时 
1 | workclass Private Li 
[Onee] [æo J| saza || wao J 
图 5-76 配置 “ 蔡 换 NULL (8 2 控件 


40 数据 清洗 


在 图 5-76 中 单 击 “确定 ”按钮 ,完成 “替换 NULL 值 2” 控 件 的 配置 。 
7. 配置 “字段 选择 ”控件 
双击 图 5-59 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ” 界 面 ,如 图 5-77 所 示 。 


Es 选择 /改名 值 [= =m =] 
SEER Fm 

EESE B JUEZ | 

字段 : 

|f FER BER 长 度 m= FERF 

I EG 

p REENE E 
Gs [wao J 


图 5-77 “选择 /改名 值 ? 界 面 


在 图 5-77 的 “ 移 除 ” 选 项 卡 界面 中 添加 要 移 除 的 字段 名 称 ,这 里 移 除 的 是 字段 flagfield， 
如 图 5-78 所 示 。 


LO Hap) 


图 5-78 添加 要 移 除 的 字段 
在 图 5-78 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 
8. 运行 转换 fill_missing_value 


单 击 转换 工作 区 顶部 的 号 按 钮 ,运行 创建 的 转换 fill_missing_value, 实 现 填充 文件 
people_survey. txt 中 的 缺失 值 .具体 如 图 5-79 所 示 。 

从 图 5-79 中 执行 结果 窗口 的 “步骤 度量 ”选项 卡 可 以 看 出 ,“ 文 本 文件 输入 ”控件 输入 21 
条 数据 并 写 入 该 控件 ;“ 过 滤 记 录 ” 控 件 读 取 “文本 文件 输入 ”控件 中 的 21 条 数据 并 写 入 该 控 
件 ;“ 空 操作 (什么 也 不 做 )” 控 件 读 取 符合 过 滤 要 求 的 15 条 数据 并 写 入 该 控件 ;“ 空 操作 ( 什 
么 也 不 做 )2” 控 件 读 取 不 符合 过 滤 要 求 的 6 条 数据 并 写 入 该 控件 ;“ 蔡 换 NULL 值 ?控件 读 
取 “ 空 操作 ”控件 中 的 15 条 数据 进行 空 值 蔡 换 操作 并 写 人 该 控件 :合并 记录 ”控件 读 取 ”* 替 
É NULL 值 ?控件 和 * 空 操作 (什么 也 不 做 )2” 控 件 共 21 条 数据 并 写 人 该 控件 ;替换 NULL 
值 2” 控 件 读 取 “合并 记录 ”中 的 21 条 数据 进行 空 值 蔡 换 操作 并 写 和 该 控件 ;字段 选择 " 控 
件 读 取 “替换 NULL 值 2 控件 中 的 21 条 数据 并 写 人 该 控件 。 
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[$E fill missing value Z 


>- H Dl e 2 XJR H 10% ~ 


c 
Yx) 
LLE 2 
REHA 

e 

字段 选择 
‘ + 
执行 结果 Dx 
目 B= [O 执行 历史 [Ë= SREE |=: Hm] [E Metrics| p Preview data| 
® 
B | 步骤 名 称 复制 的 记录 行 数 E 5 输 和 输出 更 新 拒绝 R ms ^ 
1 文本 文件 输入 0 0 2 a 0 1 0 0 已 完成 
2 misoa oj 2 2 0 0 0 0 0 已 完成 
3 SRE (什么 也 不 但 ) 0 15 15 0 0 0 0 0 已 完成 
4 tF (什么 也 不 鲍 2 0 6 6 0 0 0 0 0 已 完成 
5 #&NULL 0 15 15 0 0 0 0 0 已 完成 
6 合并 记录 0 2 2 0 0 0 0 0 已 完成 
7 SNU 2 0 2 2 0 0 0 0 0 已 完成 
8 字段 选择 o x. x 0 0 0 0 0 已 守成 + 
“L<c—ə  DE————ÁO.v—Ñnr n. | d 


图 5-79 运行 转换 fill missing value 


单 击 图 5-79 中 的 “字段 选择 ”控件 ,再 单 击 执行 结果 窗口 的 Preview data 选项 卡 ,查看 
是 否 填充 了 文件 people_survey. txt 中 的 缺失 值 ,具体 如 图 5-80 所 示 。 
执行 结果 Dx 


Ë) B= (O nnne | 三 +m ||“: eem [Ët Metrics [dp Preview data 
@ $(TransPreview.FirstRows.Label) © $(TransPreview.LastRows.Label) © $(Tran: 


£ | userid hours_per_week 
000001 
000002 
000003 
000004 
000005 


workclass 
Private 
private 
Private 
Private 
Private 
Private 
Private 


40 
18 
40 
40 
40 
45 
40 
20 
40 
60 
35 
45 


ERESemNoaonawNE 


State-gov 
Federal-gov 
Private 
Private 
Self-emp-not-inc 
000013 20 Private 
Private 
Private 
Private 
Private 
Private 
Private 
Private 
Private 


8 
s 
sssusa 


21 000021 


A 5-80 ”查看 是 否 填充 了 文件 people_survey. txt 中 的 缺失 值 


从 图 5-80 中 可 以 看 出 ,文件 people_survey. txt 中 不 存在 缺失 值 数据 了 ,说 明 通 过 
Kettle 工具 实现 了 缺失 值 的 填充 。 

注意 : 本 小 节操 作 只 是 将 文件 people_survey. txt 的 数据 读 取 到 Kettle 中 进行 填充 缺 
失 值 处 理 , 并 不 会 改变 文件 people_survey. txt 的 原始 数据 ,如 需 保存 处 理 后 的 数据 , 须 添 加 
相关 输出 控件 。 


5.3 ”异常 值 


异常 值 是 指 样本 中 的 个 别 值 ,其 数值 明显 偏离 它 所 属 样本 的 其 余 观测 值 ,这 些 数 值 是 不 
合理 的 或 错误 的 。 本 节 将 针对 出 现 异 常 值 的 原因 、 检 测 异常 值 .删除 包含 异常 值 的 记录 以 及 
修补 异常 值 进 行 讲解 。 


5.3.1 出 现 异常 值 的 原因 


仙 到 异常 值 时 ,处 理 它们 的 理想 方法 是 先 找 出 出 现 这 些 异常 值 的 原因 。 下 面 通过 一 张 
表 介绍 常见 的 出 现 异常 值 的 原因 ,具体 见 表 5-2, 


表 5-2 常见 的 出 现 异常 值 的 原因 


异常 值 的 类 型 相关 说 明 


人 为 错误 (如 数据 收集 .记录 或 输入 过 程 中 引起 的 错误 ) 可 能 导致 数据 异常 。 例 如 , 客 
数据 输入 错误 | 户 的 年 收入 为 100000 元 。 无 意 中 , 数 据 输入 操作 员 增 加 了 一 个 零 , 变 成 1000000 元 ， 
该 值 即 异常 值 


测量 误差 是 由 于 测量 仪器 发 生 故 障 导 致 的 ,该 类 异常 值 最 常见 。 例 如 ,有 10 台 称 重 
测量 误差 机 ,其 中 9 台 是 完好 的 ,1 台 是 有 缺陷 的 。 若 使 用 有 缺陷 的 称 重 机 测量 质量 , 则 会 高 
于 / 低 于 该 组 中 的 其 他 称 重 机 测量 的 质量 ,该 质量 值 即 异常 值 


该 类 异常 值 通常 出 现在 涉及 敏感 数据 的 自我 报告 的 度量 中 。 例 如 ,青少年 通常 会 报 
故意 异常 值 告 他们 消耗 的 酒精 量 ,然而 只 有 一 小 部 分 青少年 会 报告 实际 消耗 的 酒精 量 ,这 里 实际 
消耗 的 酒精 量 看 起 来 可 能 像 异 常 值 

进行 数据 挖掘 时 ,我们 会 从 多 个 数据 源 中 抽取 数据 ,由 于 某 些 操 作 或 抽取 错误 ,可 能 
会 导致 数据 集中 出 现 异常 值 

当 测 量 跳水 运动 员 的 身高 时 ,也 测量 了 篮球 运动 员 的 身高 ,并 把 篮球 运动 员 的 身高 记 
入 样本 中 ,这 样 会 导致 样本 中 的 数据 集 出 现 异常 值 

如 果 异 常 值 不 是 人 为 原因 造成 的 ,就 有 可 能 是 自然 异常 值 。 例 如 ,一 家 知名 的 保险 公 
自然 异常 值 司 的 前 50 名 财务 顾问 的 表现 能 力 都 强 于 其 他 人 群 ,关于 表现 能 力 强 弱 的 值 即 自然 异 
常 值 


数据 处 理 错 误 


采样 错误 


5.3.2 检测 异常 值 


假设 数据 集中 的 大 多 数 实例 都 是 在 正常 的 前 提 下 .异常 值 的 检测 方法 通常 分 为 三 大 类 ， 
即 无 监督 式 异常 值 的 检测 、 监 督 式 异常 值 的 检测 以 及 半 监 督 式 异常 值 的 检测 ,具体 介绍 
如 下 。 
。 无 监督 式 异常 值 的 检测 ,通过 寻找 与 其 他 数据 最 不 匹配 的 实例 检测 出 未 标记 测试 数 
据 的 异常 。 
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。 监督 式 异常 值 的 检测 ,需要 一 个 已 经 被 标记 “正常 "与 “异常 * 的 数据 集 ,并 涉及 训练 
分 类 器 ,用 来 区 分 正常 值 和 异常 值 。 
。 半 监督 式 异常 值 的 检测 ,根据 一 个 给 定 的 正常 训练 数据 集 创建 一 个 表示 正常 行为 的 
模型 ,将 检测 的 偏离 正常 行为 的 对 象 视 为 异常 值 。 
一 般 异 常 值 的 检测 方法 包含 基于 统计 的 方法 .基于 聚 类 的 方法 以 及 一 些 专门 检测 异常 
值 的 方法 等 异常 值 检测 的 方法 。 下 面 针对 这 些 异 常 值 检测 的 方法 进行 详细 讲解 。 


1. 简单 统计 方法 


对 属性 值 进 行 一 个 描述 性 的 统计 ,从 而 查看 哪些 值 是 不 合理 的 。 例 如 ,对 年 龄 这 个 属性 
进行 规约 : 年 龄 的 区 间 为 [0 : 150], 如 果 样 本 中 的 年 龄 值 不 在 该 区 间 范 围 内 , 则 表示 该 样本 
的 年 龄 属性 属于 异常 值 。 


2. 30 准则 

30 原则 又 称 为 拉 依 达 原则 , 它 是 指 假设 一 组 检测 数据 只 含有 随机 误差 ,对 其 进行 计算 
处 理 得 到 标准 偏差 , 按 一 定 概率 确定 一 个 区 间 , 几 是 超过 这 个 区 间 的 误差 ,都 是 粗大 误差 , 相 
应 的 数据 应 予以 剔除 。 

在 正 态 分 布 概率 公式 中 ,oe Sp 表示 平均 数 ,f(z) 表 示 正 态 分 数 函 数 ,具体 如 下 : 


fa) = == [— CŽ ESANA 


i a 5-81 所 示 。 


fœ 


图 5-81 正 态 分 布 函数 图 


从 图 5-81 可 以 看 出 ,3c 原则 在 各 个 区 间 所 占 的 概率 如 下 所 示 。 

(1) 数值 分 布 在 (% 一 c,w 十 c) 中 的 概率 为 0. 682 。 

(2) 数值 分 布 在 (/ 一 2c.w 十 2c) 中 的 概率 为 0. 954。 

(3) 数值 分 布 在 (y 一 30,y 十 30) 中 的 概率 约 为 0. 997。 

由 此 可 知 , 数 值 几乎 全 部 集中 在 (y 一 30,y 十 30) 区 间 , 超 出 这 个 范围 的 可 能 性 仅 占 不 到 
0.3%。 所 以 ,凡是 误差 超过 这 个 区 间 的 就 属于 异常 值 .应 予以 剔除 。 


3. 箱 形 图 
箱 形 图 又 称 为 箱 线 图 ,是 一 种 用 于 显示 一 组 数据 分 散 情 况 的 统计 图 。 在 箱 形 图 中 ,异常 
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值 通常 被 定义 为 小 于 QL 一 1. 5IQR 或 大 于 QU 十 1. 5IQR 的 值 。 其 中 ， 

(1) QL 称 为 下 四 分 位 数 ,表示 全 部 观察 中 四 分 之 一 的 数据 取 值 比 它 小 。 

(2) QU 称 为 上 四 分 位 数 , 表 示 全 部 观察 值 中 有 四 分 之 一 的 数据 取 值 比 它 大 。 

(3) IQR 称 为 四 分 位 数 间 距 , 是 上 四 分 位 数 QU 与 下 四 分 位 数 QL 之 差 , 其 间 包 含 了 全 
部 观察 值 的 一 半 。 

离散 点 表示 的 是 异常 值 , 上 界 表示 除 异 常 值 以 外 数据 中 的 最 大 值 ;下 界 表示 除 异常 值 以 
外 数据 中 的 最 小 值 ,具体 如 图 5-82 所 示 。 


图 5-82 中 的 箱 形 图 是 根据 实际 数据 进行 绘制 的 ， ° iiia 
对 数据 没有 任何 要 求 (如 3c 原则 要 求 数据 服从 正 态 分 aa 
布 或 近似 正 态 分 布 )。 箱 形 图 判断 异常 值 的 标准 是 以 
四 分 位 数 和 四 分 位 距 为 基础 的 。 

一 一 一 一 一 上 四 分 位 

4. 基于 邻近 的 模型 i 

基于 邻近 的 模型 是 评估 值 与 其 他 值 孤立 情况 的 模 一 一 一 下 四 分 位 
型 ,该 模型 主要 分 为 三 类 , 即 聚 类 分 析 、 基 于 密度 的 分 
析 以 及 最 近邻 分 析 ,具体 介绍 如 下 。 

(1) 在 聚 类 的 分 析 中 ,首先 建立 一 个 数据 模型 , 异 R 


常 是 那些 同 模型 不 能 完美 拟 合 的 对 象 ;如 果 模 型 是 簇 图 5-82 箱 形 图 结构 示意 图 
的 集合 , 则 异常 是 不 显著 属于 任何 簇 的 对 象 ;使 用 回归 
模型 时 ,异常 是 相对 远离 预测 值 的 对 象 。 

(2) 基于 密度 的 分 析 中 , 仅 当 一 个 点 的 局 部 密度 显著 低 于 它 的 大 部 分 近邻 时 , 才 将 其 分 
类 为 离 群 点 。 

(3) 在 最 近邻 近 度 的 分 析 中 ,有 两 种 不 同 的 分 析 策 略 : 第 一 种 策略 是 采用 给 定 邻 域 半 
径 ,依据 点 的 邻 域 中 包含 的 对 象 多 少 判定 离 群 点 ,如 果 一 个 点 的 邻 域内 包含 的 对 象 少 于 整个 
数据 集 的 一 定 比 例 , 则 标识 它 为 离 群 点 ;第 二 种 策略 是 利用 最 近邻 距离 的 大 小 判定 离 群 
点 , 若 上 太 小 (如 1), 则 少量 的 邻近 离 群 点 可 能 导致 较 低 的 离 群 程度 ; 若 人 太 大 , 则 点 数 少 于 
k 的 篮 中 所 有 的 对 象 可 能 都 成 了 离 群 点 。 


5.3.3 删除 包含 异常 值 的 记录 


不 少 人 在 处 理 异 常 值 时 ,习惯 于 使 用 简单 粗暴 的 删除 方法 ,但 是 这 并 不 适用 于 处 理 所 有 
异常 值 ,若是 通过 删除 的 方法 处 理 异常 值 ,有 时 会 使 你 错过 真正 的 规律 。 如 果 想 删除 数据 ， 
一 定 需要 有 合理 的 理由 。 当 出 现 异常 值 时 ,需要 先 清楚 是 什么 原因 导致 出 现 异常 值 ,然后 考 
虑 如 何 处 理 。 

如 果 异 常 值 是 由 于 输入 或 测量 数据 不 正确 而 造成 , 则 很 明显 就 能 看 出 这 一 类 数据 是 错 
的 。 例 如 ,假设 有 一 个 关于 体重 的 数据 集 , 其 中 女性 的 体重 记录 为 19 斤 ,通常 这 样 的 体重 对 
于 一 个 女性 来 说 是 不 正常 的 ,她 的 真实 体重 可 能 是 119 Jr sk 190 斤 等 ,由 于 我 们 无 法 确定 是 
哪个 值 , 因 此 这 一 类 数据 可 以 直接 删除 。 

极端 异常 值 会 对 平均 值 产生 很 大 影响 ,但 不 会 影响 中 位 数 。 因 此 ,如 果 只 计算 中 位 数 ， 
则 可 以 包含 异常 值 。 如 果 异 常 值 过 于 极端 而 不 可 信 ( 例 如 ,可 能 由 于 测量 误差 ) , 则 应 该 将 其 
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排除 ;如 果 异 常 值 是 合理 的 , 则 需要 分 析 是 否 有 异常 值 数据 。 如 果 这 两 种 类 型 的 数据 分 析 得 
出 的 结果 一 致 , 则 可 以 删除 该 异常 值 。 

下 面 介绍 几 种 不 宜 删 除 异 常 值 的 情况 。 

(1) 通常 ,数据 中 出 现 的 异常 值 较 少 。 如 果 采 集 的 数据 中 有 超过 30% 的 异常 值 数 据 , 就 
意味 着 需要 进一步 研究 数据 。 

(2) 如 果 异 常 值 存在 且 代 表 了 一 种 真实 存在 的 现象 , 那 就 不 可 随意 删除 。 例 如 ,调查 
100 个 村 的 胃癌 发 病 率 ,可 能 确实 有 个 别 村 庄 的 发 病 率 远 远 
高 于 其 他 村 ,这 时 就 不 能 随意 删除 ,而 是 要 把 这 些 异常 点 纳 
入 ,重新 拟 合 模型 ,研究 其 规律 。 

(3) 分 析 数 据 的 结果 至 关 重要 ,因此 即使 很 小 的 变化 ， 

会 很 重要 。 例 如 ,可 以 更 好 地 放弃 关于 人 们 最 喜欢 电视 节 

目的 异常 值 ,而 不 是 放弃 关于 飞机 封条 失效 的 温度 。 

假设 有 一 份 记录 一 天 中 不 同时 间 的 温度 数据 文件 
temperature. txt, 其 中 包含 时 间 和 温度 (摄氏 度 ) 两 个 字段 ， 
具体 内 容 如 图 5-83 所 示 ( 展 示 部 分 数据 ) 。 

在 图 5-83 中 ,温度 数据 可 通过 箱 形 图 的 四 分 位 数 计算 
出 5 个 统计 量 , 即 下 限 是 76.5、 下 四 分 位 是 84 .中 位 数 是 84、 
上 四 分 位 是 89、 上 限 是 96. 5, 因 此 可 以 确定 非 异常 值 的 取 值 
范围 是 [76. 5,96. 5]。 

下 面 通过 Kettle 工具 分 步骤 讲解 如 何 去 除 文件 图 5-83 文件 temperature. txt 
temperature, txt 中 的 异常 值 ,具体 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


84 3 
84 
84 
84 
84 
84 
84 
84 
84 
84 
84 
84 
84 
137 
84 
84 
84 
86 ~ 


使 用 Kettle 工具 创建 转换 delete_anomalous _value, 并 添加 “文本 文件 输入 ”控件 “过 
滤 记 录 ” 控 件 “ 空 操作 (什么 也 不 做 )” 控 件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 5-84 所 示 。 


SX delete anomalous value š 
P OH DD. en ZEE É 10% ~ 


i 
已 EJ à SE (什么 也 不 8 
文本 文件 给 入 imam 


图 5-84 创建 转换 delete_anomalous _value 


2. 配置 “文本 文件 输入 ”控件 


双击 图 5-84 中 的 “文本 文件 输入 ”控件 ,进入 “文本 文件 输入 ”界面 ,如 图 5-85 所 示 。 
在 图 5-85 中 先 单 击 “浏览 ?按钮 ,选择 要 去 除 异 常 值 的 文件 temperature. txt, 然 后 单 击 
“增加 ”按钮 ,将 要 去 除 异常 值 的 文件 temperature. txt 添加 到 “文本 文件 输入 ”控件 中 ,具体 
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P. 文本 文件 输入 


文件 \\\ 内 容 | 错误 处 理 | hE) 字段 


[azo J| msaa |[ mao | 


效果 如 图 5-86 所 示 。 


D, 文本 文件 输入 


图 5-85 “文本 文件 输入 ”界面 


PS. sss] tisa 


从 上 一 步 要 获取 文件 名 


é 文件 /目录 通配符 通配符 号 (排除 ) 
1 |[G/Users/admin/Desktop/temperature.txt 


(Onee) 


[amo J msas |[ wao | 


图 5-86 ”添加 文件 temperature. txt 到 “文本 文件 输入 "控件 


在 图 5-86 中 单 击 “ 内 容 ” 选 项 卡 , 切 换 到 “内 容 ” 选 项 卡 界面 ,如 图 5-87 所 示 。 


在 图 5-87 中 清除 分 隔 符 处 的 默认 分 隔 符 “;”, 单 击 Insert TAB 按钮 ,在 分 隔 符 处 插入 
一 个 制 表 符 ;取消 勾 选 “ 头 部 ” 复 选 框 , 若 不 取消 , 则 在 进行 数据 抽取 操作 时 会 排除 文件 第 一 


行 的 数据 。“ 内 容 ” 选 项 卡 的 配置 如 图 5-88 所 示 。 
在 图 5-88 中 单 击 “ 字 段 ” 选 项 卡 , 切 换 到 “字段 ”选项 卡 界面 ,如 图 5-89 所 示 。 


在 图 5-89 中 根据 文件 temperature. txt 的 内 容 添加 对 应 的 字段 名 称 ,并 指定 数据 类 型 ， 
这 里 需要 注意 , 制 表 符 可 看 作 是 由 多 个 空格 组 成 .因此 在 “去 除 空 字 符 串 方式 ” 列 时 ,所 添加 
的 字段 都 应 选择 “不 去 掉 空 格 ”, 否 则 在 抽取 数据 操作 时 会 把 制 表 符 当 作 空 格 去 除 ,而 不 能 把 


制 表 符 作为 分 隔 符 实现 文本 文件 内 容 的 分 隔 , 如 图 5-90 所 示 。 
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P, 文本 文件 给 入 lele] = J 


DEER 文本 文件 给 入 
E CEEE EEE] 


文本 限定 符 “ 
在 文本 限定 答 里 允许 换行? 口 
ji 字符 
aS ASTRE 1 
RE DRSARE|I 
包装 行 ? 回 ND 1 


分 页 布局 (printout)? FF] 每 TB 录 行 效 | 5 


Ba 


图 5-87 “内 容 ” 选 项 卡 界面 


EEN lek) 


PEER EHAA 
EE EEEE EA] 
文件 类 型 [CSV = 
s= ma e [sen tas] 
文本 限定 符 “ 
在 文本 限定 符 里 允许 换行 ?加 
mera 
头 部 El Asra T 
尾部 回民 i 生效 量 r 
包装 行 ? 回 以 时 间 包装 的 行政 ]T 
分 页 布局 (printou? 回 每 TB 录 行 数 [加 
REL |o - 


m Caeo a JU se) 


图 5-88 “内 容 ” 选 项 卡 的 配置 


图 5-89 “字段 "选项 卡 界面 


š 
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P, 文本 文件 给 入 
步 棱 名称“ 文本 文件 输入 
文件 [内容 [misata [iss F e] 


2 | temperature Integer 不 去 掉 空 格 
[Oses] Lsmsa. J|. saq.J 


图 5-90 ”添加 文件 temperature. txt 中 的 字段 


在 图 5-90 中 单 击 “预览 记录 ”按钮 ,查看 文件 temperature. txt 的 数据 是 否 成 功 抽取 到 
文本 文件 输入 流 中 ,具体 效果 如 图 5-91 所 示 。 

从 图 5-91 中 可 以 看 出 ,文件 temperature. txt 的 数据 已 经 成 功 抽取 到 文本 文件 输入 流 
HOE: 这 里 只 截取 一 部 分 数据 进行 展示 )。 单 击 " 关 闭 ” 一 “确定 ”按钮 ,完成 “文本 文件 输 
和 人 ”控件 的 配置 。 


3. 配置 “过 滤 记 录 ” 控 件 
双击 图 5-84 中 的 “过 滤 记 录 ” 控 件 , 进 入 “过 滤 记 录 ” 界 面 ,如 图 5-92 所 示 。 


D mam ml z 


步骤 文本 文件 输入 的 数据 (48 rows) 


£ time temperature“ 


Fesera;] F [fieldy 


Kvalue> 


Ku” | + 
[ xao J| s7580 | lOni) [ #eo) ][ mao | 


图 5-91 预览 数据 图 5-92 “过 滤 记 录 ” 界 面 


在 图 5-92 中 的 “条 件 ” 处 设置 过 滤 的 条 件 ,由 于 文件 temperature. txt 中 time 为 6: 30 
的 温度 是 137 摄氏 度 ,不 在 非 异常 值 的 范围 内 ,因此 属于 异常 值 ,应 该 将 过 滤 字 段 设置 为 
temperature、 过 滤 值 设置 为 137. 具 体 如 图 5-93 所 示 。 

在 图 5-93 中 的 “发 送 true 数据 给 步骤 : ”后 的 下 拉 列 表 中 选择 “ 空 操作 (什么 也 不 做 ) 
2”, 将 异常 值 放 在 “ 空 操作 (什么 也 不 做 )2” 控 件 中 ;在 “发 送 false 数据 给 步骤 : ”后 的 下 拉 列 
表 中 选择 “ 空 操作 (什么 也 不 做 )”, 将 非 异 常 值 放 在 “ 空 操作 (什么 也 不 做 )” 控 件 中 ,具体 如 
图 5-94 所 示 。 
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B 过 沪 记 录 = pd 
PEER MSR 
发 谤 true 数 据 给 步 棒 : - 
发 送 false 数 据 给 步 棒 ; ` 
条 件 : 

十 上 
temperature] |= 国 
7 |] (Integer) - 

[Oses] (ao ]| wao | 


图 5-93 ”设置 过 滤 条 件 


S 过 小 记录 a E3 
DEER 过 涉 沁 录 

Bitru RADE [EF (什么 也 不 鲍 2 = 
Afalenat | ~ 

条 件 : 
| + 
[temperature] [F ] 国 
[37  ] (Integer) ` 


[ez 


图 5-94 配置 发 送 true/false 数据 给 相关 步骤 
在 图 5-94 中 单 击 “确定 ”按钮 ,完成 “过 滤 记 录 ” 控 件 的 配置 。 


4. 运行 转换 delete_anomalous_value 


单 击 转换 工作 区 顶部 的 加 按钮 ,运行 创建 的 转换 delete_anomalous_value, 实 现 去 除 文 


fE temperature. txt 中 的 异常 值 ,具体 如 图 5-95 所 示 。 


($X delete anomalous value £3 


P +H Dr. ei XJR 回 10% ~ 


BX 
g 步 要 名 称 复制 的 记录 行 数 Jj. S, 输入 H 更 新 。 pe 错误 激活 A 
1 文本 文 作 给 入 0 0 4 48 0 3: 0 0 Es 
2 MWR 0 4 48 0 0 0 0 0 已 完成 
3 SRF (什么 也 不 钢 2 0 1 1 0 0 0 0 0 Esse 
4 空 担 作 (tu 0 4 4 0 0 0 0 0 已 完成 -~ 
3 , 


5-95 ”运行 转换 delete_anomalous_value 


150 


从 图 5-95 中 执行 结果 窗口 的 “步骤 度量 ”选项 卡 可 以 看 出 ,“ 文 本 文件 输入 ”控件 执行 48 
行 写 操作 、48 行 输入 操作 以 及 1 行 更 新 操作 ;“ 过 滤 记 录 ” 控 件 执 行 读 、 写 操作 各 48 行 ;“ 空 
操作 (什么 也 不 做 )2” 控 件 执行 读 、 写 操作 各 1 行 ;* 空 操作 (什么 也 不 做 )” 控 件 执行 读 、 写 操 
作 各 47 行 。 也 就 是 说 ,文件 temperature. txt 中 有 1 行 是 异常 值 ,其 余 47 行 均 为 正常 值 。 

单 击 图 5-95 中 的 “ 空 操作 ”控件 ,再 单 击 执 行 结果 的 Preview data 选项 卡 ,查看 是 否 去 
除了 异常 值 ,具体 如 图 5-96 所 示 。 


|F | time temperature Š | time temperature 
1 0000 84 25 1230 90 
2 0030 84 26 1300 88 
3 0100 84 27 1330 88 
4 0130 84 28 1400 90 
5 0200 84 29 1430 90 
6 0230 84 30 1500 90 
7 0300 84 31 1530 90 
8 0330 84 32 1600 90 
9 0400 84 33 1630 90 
10 04:30 84 34 1700 90 
11 05200 84 35 1730 90 
12 05:30 84 36 1800 90 
13 06:00 84 37 1830 86 
14 0700 84 38 1900 86 
15 0730 84 39 1930 sa 
16 08:00 84 40 2000 sa 
17 08:30 86 41 2030 sa 
18 09:00 86 42 2100 24 
19 09:30 86 43 2130 sa 
20 10:00 86 44 2200 sa 
21 1030 88 45 2230 84 
22 1100 88 46 2300 sa 
23 11:30 88 47 2330 82 
24 12:00 90 


图 5-96 ERETTA temperature. txt 文件 的 异常 值 


从 图 5-96 中 可 以 看 出 ,文件 temperature. txt 中 不 存在 异常 数据 了 ,说 明 我 们 通过 
Kettle 工具 实现 了 去 除 异 常 值 的 功能 。 


5.3.4 修补 异常 值 


通过 直接 删除 的 方式 处 理 异常 值 虽 然 是 最 直接 的 方法 ,但 是 会 减少 数据 样本 ,因此 ,在 
数据 集 小 的 情况 下 减少 数据 样本 会 对 结果 产生 影响 ;在 含有 较 多 异常 值 的 数据 集中 ,大 量 删 
除 异 常 值 也 会 对 结果 产生 影响 。 因 此 ,在 异常 值 没 有 可 研究 性 的 情况 下 ,应 该 对 这 些 异 常 值 
进行 修补 处 理 。 

修补 异常 值 的 方式 主要 有 两 种 , 即 修改 异常 值 和 替换 异常 值 ,这 两 种 方式 的 具体 介绍 
如 下 。 


1. 修改 异常 值 


修改 异常 值 有 两 种 策略 : 一 是 利用 数据 集中 的 代表 性 属性 ,如 众 数 或 均值 等 ,或 是 定义 
一 个 数据 替代 异常 值 ; 二 是 通过 回归 模型 .决策 树 模型 . 贝 叶 斯 定理 等 预测 异常 值 ,并 利用 最 
邻近 值 蔡 代 异常 值 。 前 者 是 人 为 蔡 代 异常 值 , 不 能 完全 代表 异常 值 本 身 的 真实 含义 ,后 者 是 
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将 异常 数据 对 应 的 变量 当 作 目 标 变量 ,把 其 他 的 输入 变量 作为 自 变量 ,为 每 个 需要 进行 异常 
值 赋 值 的 字段 分 别 建立 预测 模型 ,从 而 利用 最 邻近 值 蔡 代 异 常 值 ,可 以 近似 代表 异常 值 本 身 
的 含义 。 


2. 替换 异常 值 


蔡 换 异常 值 是 将 异常 值 蔡 换 成 缺失 值 , 然 后 按照 缺失 值 数 据 处 理 的 方法 进行 处 理 。 
假设 有 一 份 500 人 的 身高 调查 数据 表 interpolation _ data, 其 中 包括 id, Gender 和 
Height 字段 ,具体 数据 内 容 如 图 5-97 所 示 ( 注 : 这 里 只 截取 了 部 分 人 的 数据 ) 。 


20 Male 172 


图 5-97 数据 表 interpolation_data 


图 5-97 中 的 身高 数据 可 通过 箱 形 图 的 四 分 位 数 计 算得 出 5 个 统计 量 , 即 下 限 是 114、 下 
四 分 位 是 156、 中 位 数 是 170、 上 四 分 位 是 184、 上 限 是 226 ,因此 可 以 确定 非 异 常 值 的 取 值 范 
围 是 [114 ,226]。 

下 面 通过 Kettle 工具 分 步骤 讲解 如 何 替 换 和 修改 数据 表 interpolation_data 中 的 异常 
值 ,具体 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 fill_unusual_value ,并 添加 * 表 输入 ”控件 “过 滤 记 录 ” 控 件 、 
“ 空 操作 (什么 也 不 做 )” 控 件 “ 设 置 值 为 NULL” 控 件 “ 合 并 记录 ”控件 “替换 NULL 值 ” 控 
件 “ 字 段 选择 ”控件 以 及 Hop 跳 连接 线 , 具 体 效 果 如 图 5-98 所 示 。 


2. 配置 “ 表 输 入 ”控件 


双击 图 5-98 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 5-99 所 示 。 
在 图 5-99 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 5-100 所 示 。 


miSa 
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[$E fil unusual value 12 


>- l Dl. e D XQ S 10% ~ 


‘ 


J > E 


SQL 


0 
: 
Í 


SELECT ¿<values> FROM <table name> WHERE <conditions> 
‘ 


行 1 列 0 


图 5-99 “ 表 输 入 "界面 


连接 名 称 : 


transform 
连接 类 型 : 


MS Access 

MS SQL Server 

MS SQL Server (Native) 
MariaDB 

MaxDB (SAP DB) 


图 5-100 MySQL 数据 库 连 接 的 配置 
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在 图 5-99 的 SQL 框 中 编写 查询 数据 表 interpolation_data 的 SQL 语句 ,然后 单 击 “ 预 
览 ” 按 钮 ,查看 数据 表 interpolation_data 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 表 输 
入 流 中 ,具体 如 图 5-101 和 图 5-102 所 示 。 


SEEE SAA 
数据 库 连 接 [transform i 到 [WE] [wizara...] 
ia [#wsqussas.-| 
SELECT * FROM interpolation_data a 
. » š 
行 1 列 32 
允许 简易 转换 回 
Es SQL 语句 里 的 变量 回 
从 步骤 插 入 数据 = 
执行 每 一 行 ? [E] 
记录 数量 限制 0 ° 


图 5-101 编写 SQL 语句 


EB mama l-le] = J 

DE BIRA 的 数据 (500 rows) 
al id Gender Height = 
3: 1 Male 1740 E 
2 2 Male 189.0 

3 3 Female 185.0 

4 4 Female 195.0 

5 5 Male 149.0 

6 6 Male 189.0 

7 7 Male 147.0 

8 8 Male 154.0 

9 9 Male 1740 

10 10 Female 169.0 

1 11 Male 195.0 
12 12 Female 159.0 

13 13 Female 192.0 
14 14 Male 155.0 

15 15 Male 260.0 

16 16 Female 153.0 

37 17 Female 157.0 
18 18 Male 1400 

3 19 Male 1440 
20 20 Male 1720 ~ 

[ s=Bs J 
| 
图 5-102 预览 数据 


从 图 5-102 中 可 以 看 出 ,数据 表 interpolation_data 的 数据 已 经 成 功 从 MySQL 数据 库 
中 抽取 到 表 输 入 流 中 , 单 击 “ 关 闭 ”>“ 确 定 ” 按 钮 .完成 “ 表 输 入 ”控件 的 配置 。 
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3. 配置 “过 滤 记 录 ” 控 件 


双击 图 5-98 中 的 “过 滤 记 录 ” 控 件 , 进 入 * 过 滤 记 录 ” 界 面 , 如 图 5-103 所 示 。 


B 过 a 录 [em = | 
DEZE ram 
Airu - 
发 送 false 数 据 给 步 要: 
Sk 
= 
tield]) F | Ffiela> 
Kvalue> 
a 国 » 
Ú 
图 5-103 “过 滤 记 录 ” 界 面 


在 图 5-103 中 的 “条 件 处 设置 过 滤 的 条 件 , 即 设置 Height 字段 的 取 值 范 围 ([114， 
226 ]) ,从 而 判断 数据 表 中 的 每 个 数据 是 否 为 异常 值 。 若 在 非 异 常 值 的 取 值 范围 内 , 则 是 非 


异常 值 ,否则 是 异常 值 。 过 滤 条 件 的 设置 如 图 5-104 所 示 。 


B misek 
SEER 过 小 记录 
Atruna s | E 
发 详 false 数 据 给 步 村 ;| 空 所作 (什么 也 不 网 ) 2 ~ 
条 件 : 
点 击 编辑 于 条 件 +Ë 
a 
Height >= [114.0] 
AND 
Height <= [226.0] < 
D 


图 5-104 ”过滤 条 件 的 设置 


在 图 5-104 中 “发 送 true 数据 给 步骤 : ”后 的 下 拉 列 表 中 选择 * 空 操作 (什么 也 不 做 )2”， 
将 非 异 常 值 放 在 “ 空 操作 (什么 也 不 做 )2” 控 件 中 ;在 “发 送 false 数据 给 步 又: ”后 的 下 拉 列 
表 中 选择 “ 空 操 作 ( 什 么 也 不 做 )”, 将 异常 值 放 在 “ 空 操作 (什么 也 不 做 )” 控 件 中 ,具体 如 


图 5-105 所 示 。 
在 图 5-105 中 单 击 “确定 ”按钮 ,完成 “过 滤 记 录 ” 控 件 的 配置 。 


4. 预览 * 空 操作 (什么 也 不 做 )" 控 件 中 的 数据 


选中 图 5-98 中 的 “ 空 操作 (什么 也 不 做 )” 控 件 , 然 后 单 击 转换 工作 区 顶部 的 按钮 , 预 


览 * 空 操作 (什么 也 不 做 )" 控 件 中 的 数据 ,具体 如 图 5-106 所 示 。 


从 图 5-106 中 可 以 看 出 ,id 为 15 的 这 条 数据 , Height 字段 为 260.0,260.0 不 在 非 异常 


值 范 上 


[114,226] 内 ,因此 该 条 数据 为 异常 数据 。 
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B 过 小 记录 aja] z J 
PEER 过 涉 记录 
true BRAE [SEF (什么 也 不 后 2 ~ 
发 洋 false 数 据 给 步 要 :| 裤 捷 作 (什么 也 不 的 ) „i 
条 件 : 
点 击 编辑 子 条 件 十 “ 
m 
Height >= [114.0] 
AND 
Height <= [226.0] a 


Æ 5-105 配置 发 送 true/false 数据 给 相关 步骤 


P 空 操作 (什么 也 不 合 ) 的 数据 (1 rows) 
id Gender 
15 Male 


图 5-106 预览“ 空 操作 (什么 也 不 做 )” 控 件 中 的 数据 


5. 配置 “设置 值 为 NULL” 控 件 


双击 图 5-98 中 的 “设置 值 为 NULL” 控 件 ,进入 “设置 值 为 NULL” 界 面 ,如 图 5-107 
所 示 。 


Damm 


图 5-107 “设置 值 为 NULL” 界 面 


在 图 5-107 中 的 “字段 ”处 添加 要 设 为 NULL 值 的 字段 名 称 和 需要 转换 成 NULL 的 值 ， 
具体 如 图 5-108 所 示 。 
在 图 5-108 中 单 击 “ 确 定 ” 按 钮 ,完成 “设置 值 为 NULL” 控 件 的 配置 。 


6. 配置 “合并 记录 ”控件 
双击 图 5-98 中 的 “合并 记录 ”控件 ,进入 “合并 行 (比较 )” 界 面 ,如 图 5-109 所 示 。 
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图 5-108 ”添加 要 设 为 NULL 值 的 字段 名 称 和 需要 转换 成 NULL 的 值 


在 图 5-109 中 * 旧 数据 源 : "后 的 下 拉 列 表 中 选择 “设置 为 NULL 值 ”, 在 “新 数据 源 : ” 
后 的 下 拉 列 表 中 选择 “ 空 操作 (什么 也 不 做 )2”; 在 “匹配 的 关键 字 :“ 处 添加 关键 字段 , 即 id, 


具体 如 图 5-110 所 示 。 


= 外行 此 网 [| = [> arm tam = 
步骤 名 称 ”合并 记录 步骤 名 称 “合并 记录 
| 数据 源 : - 上 数据 源 : | 设置 值 为 NULL w 
mes o FERB: SE HAERE 2 E 
标志 字段 flagfild 标志 字段 flagfield 
的 关键 字 ， Bere: 的 关键 字 : sare 
ESEA] £ 数据 字段 £ | 关键 字段 £ 数据 字段 
1 1 id 
[mme -一 | [amxesza | amsav |] 
Ta Ou) Ee 
图 5-110 配置 “合并 记录 ”控件 


图 5-109 “合并 行 (比较 )” 界 面 
“合并 记录 ”控件 主要 是 将 两 个 数据 源 ( 旧 数据 源 、 新 数据 源 ) 进 行 合并 ,标志 字段 主要 是 
将 每 条 数据 进行 标记 ,新 数据 源 的 数据 会 标记 为 new, 旧 数据 源 的 数据 会 标记 为 deleted, 若 
新 . 旧 数 据 源 中 存在 相同 的 关键 字段 设置 的 数据 , 则 两 个 数据 源 进行 合并 后 只 会 保存 从 新 数 
据 源 中 获取 的 数据 ,并 以 identical 进行 标记 。 
在 图 5-110 中 单 击 “确定 ”按钮 .完成 “合并 记录 ”控件 的 配置 。 
7. 配置 “替换 NULL 值 "控件 
双击 图 5-98 中 的 “替换 NULL 值 ” 控 件 ,进入 “替换 NULL 值 ” 界 面 ,如 图 5-111 所 示 。 
在 图 5-111 中 色 选 “选择 字段 " 复 选 框 , 并 在 “字段 ” 框 添加 字段 Height, 值 蔡 换 为 170 
(通过 计算 得 到 499 人 的 平均 身高 值 近似 为 170, 因 此 用 170 替换 字段 Height 中 的 NULL 


值 ) ,具体 如 图 5-112 所 示 。 
在 图 5-112 中 单 击 “ 确 定 ? 按 钮 ,完成 “ 蔡 换 NULL 值 ?控件 的 配置 。 


8. 配置 “字段 选择 ”控件 
双击 图 5-98 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ” 界 面 ,如 图 5-113 所 示 。 


第 5 章 数据 的 清洗 与 检验 


r 
==, ESNE 
PUZ ANULA 
BAFE Fn 
mes» 
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RB (日期 
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(sm 
£ | 类 型 Bus» ë 转换 掩 码 (日 期) BESFAR 
74 
FEE” BES» ë eja 日 期 ) L: -— 
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图 5-111 “替换 NULL 值 "界面 


=, ANUL l 
作业 名 称 ” 著 痪 NULL 值 
BAF 
m» 
im] 
AA (日 期) 
远近 字段 团 
选择 信 类 型 回 
men 
# 类 型 BER» ë 转换 掩 码 (日 期) 设置 全 字符 素 


5-112 配置 “替换 NULL 值 ”控件 


[EL 


数据 清洗 
E 选 泽 / 改 名 什 P = 
SEER FRAR 
(ERAN E nE] 


包含 未 指定 的 列 按 名 称 排 序 回 


ca å — 


图 5-113 “选择 /改名 值 ? 界 面 


在 图 5-113 的 “ 移 除 ”选项 卡 中 添加 要 移 除 的 字段 名 称 ,这 里 移 除 的 是 字段 flagfield, 如 
图 5-114 所 示 。 


图 5-114 添加 要 移 除 的 字段 
在 图 5-114 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 


9. 运行 转换 fill_unusual_value 


单 击 转换 工作 区 顶部 的 加 按钮 ,运行 创建 的 转换 fill_unusual_value, 实 现 修改 并 替换 
数据 表 interpolation_data 中 的 异常 值 的 功能 ,具体 如 图 5-115 所 示 。 

从 图 5-115 中 执行 结果 窗口 的 “步骤 度量 "选项 卡 可 以 看 出 ,“ 表 输入 ”控件 输入 500 条 
数据 并 写 入 该 控件 ;“ 过 滤 记 录 ” 控 件 读 取 “ 表 输入 ”控件 中 的 500 条 数据 并 写 入 该 控件 ;* 空 
操作 (什么 也 不 做 )2” 控 件 读 取 符合 过 滤 要 求 的 499 条 数据 并 写 入 该 控件 ;* 空 操作 (什么 也 
不 做 )” 控 件 读 取 不 符合 过 滤 要 求 的 1 条 数据 并 写 和 人 该 控件 ;设置 值 为 NULL” 控 件 读 取 
“ 空 操作 (什么 也 不 做 )” 控 件 中 的 1 条 数据 并 写 入 该 控件 ;“ 合 并 记录 ”控件 读 取 “ 设 置 值 为 
NULL” 控 件 和 “ 空 操作 (什么 也 不 做 )2” 控 件 的 数据 共 500 条 并 写 入 该 控件 ; “替换 NULL 
值 "控件 读 取 “ 合 并 记录 ”控件 的 500 条 数据 并 写 入 该 控件 ;“ 字 段 选择 ”控件 读 取 “替换 
NULL 值 ? 控 件 的 500 条 数据 并 写 入 该 控件 。 

单 击 图 5-115 中 的 “字段 选择 ”控件 ,再 单 击 执行 结果 窗口 的 Preview data 选项 卡 ,查看 
是 否 修改 并 替换 数据 表 interpolation_data 中 的 异常 值 ,具体 如 图 5-116 所 示 。 

从 图 5-116 中 可 以 看 出 ,数据 表 interpolation_data 中 不 存在 异常 值 数据 ,并 把 id 为 15 
的 这 条 数据 中 的 Height 字段 值 蔡 换 成 了 170, 说 明 我 们 通过 Kettle 工具 实现 了 修改 并 替换 
异常 值 的 功能 。 
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[Z fill unusual value 3 


b +H D+ eñ EFJ H 10% “+ 


~ 区 ~ 时 
senut FER g 

. + 

执行 结果 Bx 
Ë E= [@ nnne [SE SRN |— | Metrics] dp Preview data] 

® 

£ 步 要 名 称 复制 的 记录 行 数 读 5 输入 É #m 。 拒绝 me 激活 时 间 
1 JaA 0 0 5 500 0 0 0 0 已 完成 00s 
2 Mz 0 500 500 0 0 0 0 0 Es 0.0s 
3 SRF (什么 也 不 铀 ) 2 0 499 499 0 0 0 0 0 Es 0.05 
4 SIRF (rtJ 0 1 1 0 0 0 0 0 已 完成 00s 
5 ”设置 什 为 NULL 0 1 1 0 0 0 0 0 已 完成 0.05 
6 ”合并 记录 0 500 500 0 0 0 0 0 Es 04s 
7 Wanui 0 5 50 0 0 0 0 0 已 完成 04s 
8 字段 选择 0 5 50 0 0 0 0 0 已 完成 04s 
| A 


图 5-115 运行 转换 fill unusual value 


热 行 结果 

Ë ns [O 执行 历史 | 三 m= [7 tm |Ë: Metrics [p Preview data 
© $(TransPreview-FirstRows.Label) © $(TransPreview.LastRows-Label) © 
Ea id Gender Height 
F 1 Male 1740 
2 2 Male 189.0 
3 3 Female 185.0 
4 4 Female 195.0 
5 5 Male 149.0 
6 6 Male 189.0 
7 7 Male 147.0 
8 8 Male 154.0 
9 9 Male 1740 
10 10 Female 169.0 
11 11 Male 195.0 
12 12 Female 159.0 
13 13 Female 192.0 
14 14 Male 155.0 
15 [ 15 Male 170.0 ] 
16 16 Female 153.0 
17 17 Female 157.0 
18 18 Male 140.0 
19 19 Male 144.0 
20 20 Male 1720 


图 5-116 ”查看 是 否 修改 并 蔡 换 数据 表 interpolation_data 中 的 异常 值 


ri59- 
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5.4 数据 检验 


企业 中 的 数据 一 般 都 要 遵守 预定 义 的 业务 规则 ,数据 检验 就 是 在 数据 清洗 过 程 中 ,通过 
对 数据 项 增加 验证 约束 ,实现 对 数据 有 效 性 的 验证 。 本 节 将 针对 数据 一 致 性 以 及 规范 化 的 
校 验 进行 讲解 。 


5.4.1 数据 一 致 性 处 理 


数据 一 致 性 是 指 在 对 一 个 副本 数据 进行 更 新 的 同时 ,必须 确保 也 能 够 更 新 到 其 他 的 副 
本 ,否则 不 同 的 副本 之 间 的 数据 将 不 再 一 致 。 例 如 , 当 你 在 某 银行 已 在 有 5000 元 ,接着 又 存 
了 1000 元 ,然后 跑 到 另外 一 个 地 方 游 山 玩 水 ,需要 在 当地 的 银行 把 这 6000 元 取出 来 ,但 是 
存 钱 的 银行 并 没有 及 时 将 你 存 钱 的 信息 传 给 当地 的 银行 ,所 以 当地 银行 还 不 知道 你 已 经 存 
了 1000 元 进去 ,当地 银行 的 工作 人 员 告 诉 你 账户 余额 只 有 5000 元 ,这 时 你 的 同一 账户 的 余 
额 在 不 同 地 点 就 出 现 了 不 一 致 情况 。 

数据 的 一 致 性 有 3 种 类 型 , 即 强 一 致 性 、 弱 一 致 性 以 及 最 终 一 致 性 ,具体 介绍 如 下 。 

(1) 强 一 致 性 是 指 对 数据 完成 更 新 操作 之 后 ,所 有 客户 端 访问 到 的 数据 均 为 更 新 之 后 
的 数据 ,这 样 可 以 保证 客户 端 获取 的 是 最 新 数据 ,但 是 若 要 达到 强 一 致 性 ,将 会 降低 性 能 。 

(2) 弱 一 致 性 是 指 当 数据 完成 更 新 操作 之 后 ,系统 并 不 保证 所 有 的 客户 端 访 问 到 的 数 
据 都 是 最 新 数据 ,但 是 会 尽量 保证 在 某 个 时 间 ( 如 秒 级 或 分 钟 级 ) 内 让 数据 达到 一 致 性 状态 。 

(3) 最 终 一 致 性 是 弱 一 致 性 的 一 种 特例 , 当 对 数据 更 新 完 之 后 ,保证 没有 后 续 更 新 的 前 
提 下 ,系统 最 终 返回 的 是 上 一 次 更 新 操作 的 值 。 

假设 数据 库 中 有 一 张 名 为 Personnel_Information 的 数据 表 , 该 表 中 主要 记录 了 500 名 
职员 的 性 别 、 身 高 .体重 及 健康 值 ,具体 如 图 5-117 所 示 ( 注 : 这 里 只 截取 数据 表 中 的 部 分 数 


据 进行 展示 ) 。 
[s] (GENDER [HEIGHT WEIGHT [INDEX  — | 
[m] 00000000001 Female 174 96 4 
[m] 00000000002 Male 189 87 2 
[m] 00000000003 Female 185 110 4 
[m] 00000000004 Female 195 104 3 
[m] 00000000005 Male 149 61 3 
[m] 00000000006 Male 189 104 3 
[m] 00000000007 Male 147 92 5 
[m] 00000000008 Male 154 111 5 
[Il 00000000009 Male ` pa 90 — 
[m] 00000000010 Female 169 103 4 
[Il e 00000000011 Male Ü |195 er 2 
[IJ  00000000012Femaie 159 eo 4 
[m] 00000000013 Female 192 101 3 
[m] 00000000014 Male 155 51 2 
[m] 00000000015 Male 191 79 2 
[m] 00000000016 Female 153 107 5 
[m] 00000000017 Female 157 110 s 
[m] 00000000018 Male 140 129 5 
[m] 00000000019 Male 144 145 5 


图 5-117 数据 表 Personnel_Information 
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下 面 通过 Kettle 工具 分 步骤 讲解 使 用 弱 一 致 性 对 数据 表 Personnel_Information 中 的 
数据 进行 一 致 性 处 理 , 即 利用 数据 表 Personnel_Information 中 的 字段 GENDER 中 的 值 训 
练 出 一 个 健康 值 预测 模型 ,用 于 将 原始 数据 中 的 字符 串 特征 转换 为 模型 可 识别 的 数字 特 
征 , 这 里 是 将 GENDER 字段 中 的 Male 和 Female 转换 成 数字 0 和 1, 然后 将 转换 完 的 数据 
存储 到 新 数据 表 Personnel _ Information_New "P QF: 新 数据 表 Personnel Information_ 
New 的 数据 结构 应 与 原始 数据 表 Personnel_Information 的 数据 结构 保持 一 致 ; ,具体 步骤 
如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 data _consistency, 并 添加 “ 表 输 入 ”控件 “ 值 映射 "控件 “ 插 
入 /更 新 "控件 以 及 Hop 跳 连接 线 , 具 体 效果 如 图 5-118 所 示 。 


3% data _consistency ©? 
DP +H D. e OPD EE E 10% ~ 


加 -一 一 号 一 ~ 下 | 
L: TN 


es 插入 /更 新 


图 5-118 创建 转换 data _consistency 


2. 配置 “ 表 输 入 "控件 
双击 图 5-118 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 5-119 所 示 。 


DEER SEA 


sa BASQUE.. 


SELECT ‘<values> FROM <table name> WHERE <conditions> y 
4 + 


行 1 列 0 


° Lo J mm ][ meo ] 


图 5-119 “ 表 输 入 ”界面 


在 图 5-119 中 单 击 “ 新 建 " 按 钮 , 配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 5-120 所 示 。 

在 图 5-119 中 的 SQL 框 中 编写 查询 数据 表 interpolation_data 的 SQL 语句 ,然后 单 击 
“预览 ”按钮 ,查看 数据 表 Personnel_Information 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 
到 表 输 入 流 中 ,具体 如 图 5-121 和 图 5-122 所 示 。 


目 seste a 
== HREP 
Sms een 
Na 这 型- as 
akan Z] ENER 
MS SQL Server localhost ° 
MS SQL Server (Native) 
MariaDB 数据 库 名 称 : 
MaxDB (SAP DB) transform ° 
MonetDB = 
Native Mondrian 3306 "i 
Neoview - 
iez 用 户 名 : 
|ooenERpsener | root o 
asiata 密码: 
eeee © 
Inor El Use Resul Searing Cursor 
[ m | sene | ws |] 
U mu | 


Æ 5-120 MySQL 数据 库 连接 的 配置 


EESIN lela] 
EZR AA 
数据 库 连 接 transform _verify ` [Wizard..] 
a EE 
SELECT * FROM personnel_information 
. » 
行 1 列 35 
rrasa E 
BR SQL 语句 里 的 变量 回 
Mapas mag 
执行 每 一 行 ? [1 
记录 数量 限制 0 
[Oe] [aso |[ mam J| wao | 


图 5-121 编写 SQL 语句 


从 图 5-122 中 可 以 看 出 ,数据 表 Personnel_Information 的 数据 已 经 成 功 从 MySQL 数 
据 库 中 抽取 到 表 输 入 流 中 , 单 击 “ 关 闭 ” 一 “确定 ”按钮 ,完成 “ 表 输 入 ”控件 的 配置 。 


3. 配置 “ 值 映射 "控件 


双击 图 5-118 中 的 “ 值 映 射 "控件 ,进入 “ 值 映射 "界面 ,如 图 5-123 所 示 。 

在 图 5-123 中 “使 用 的 字段 名 ”后 的 下 拉 列 表 中 选择 字段 GENDER; E “F BHE” HE t i 
加 源 值 和 目标 值 ,这 里 是 将 Male 替换 成 数字 0, 将 Female 替换 成 数字 1, 具 体 如 图 5-124 
所 示 。 

在 图 5-124 中 单 击 “确定 ”按钮 ,完成 “ 值 映 射 "控件 的 配置 。 
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== 
F 33682 的 数据 (501 rows) 
A USERID GENDER HEIGHT WEIGHT INDEX < 
* 1 Female 174 96 4 国 
2 2 Male 189 87 2 
3 3 Female 185 110 4 
4 4 Female 195 104 3 
5 5 Male 149 61 3 
6 6 Male 189 104 3 
vA 7 Male 147 92 5 
8 8 Male 154 111 5 
9 9 Male 174 90 3 
10 10 Female 169 103 4 
型 11 Male 195 81 2 
12 12 Female 159 80 4 
13 13 Female 192 101 3 
14 14 Male 155 51 z 
15 15 Male 191 79 2 
16 16 Female 153 107 5 
17 17 Female 157 110 5 
18 18 Male 140 129 5 
19 19 Male 144 145 5 
20 20 Male 172 139 5 - 
图 5-122 预览 数据 
A) Be; = "y eq: arik» 
Y w 步 要 名称 : (Bing 
使 用 的 字段 各: z 使 用 的 字 良 名 : [GENDER ] = 
目标 字段 名 (S-88) 目标 字段 名 S-85) 
不 匹配 时 的 默认 值 : 不 5 本 时 的 默认 值 : 
+: Fai 
£ 源 值 。 目标 值 f ma Bus 
£ £ 
2 
E 5-123 “ 值 映射 "界面 图 5-124 配置 * 值 映射 "控件 


4. 配置 “插入 /更 新 ”控件 


双击 图 5-118 中 的 “插入 /更 新 "控件 ,进入 “插入 /更 新 "界面 ,如 图 5-125 所 示 。 

在 图 5-125 中 单 击 “新 建 ” 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 5-126 所 示 。 

单 击 图 5-125 中 目标 表 右 侧 的 “浏览 ”按钮 ,弹出 “数据 库 浏览 器 "窗口 ,选择 目标 表 
Personnel_ Information_New, 具 体 如 图 5-127 所 示 。 

在 图 5-127 中 单 击 “获取 字段 ?按钮 ,用 来 指定 查询 数据 需要 的 关键 字 , 这 里 选择 的 是 
Personnel_ Information_New 数据 表 中 的 USERID 字段 和 输入 流 里 的 USERID 字段 ; 单 击 
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图 5-126 MySQL 数据 库 连 接 的 配置 


“获取 和 更 新 字段 "按钮 ,用 来 指定 需要 更 新 的 字段 ,具体 如 图 5-128 所 示 。 
在 图 5-128 中 单 击 “ 确 定 ” 按 钮 .完成 “插入 /更 新 "控件 的 配置 。 


5. 运行 转换 data _consistency 


单 击 转 换 工 作 区 顶部 的 号 按钮 ,运行 创建 的 转换 data _consistency, 实现 将 数据 表 


第 5 章 ， 数据 的 清洗 与 检验 m65s 


3 插入 更 新 lele] = J 
步 要 名 称 插入 /更 新 
BEREE [transform veriyl l[a] [F] [waara..] 
PERT © (buss) 
asx ° xz. 
提交 记录 数量 100 ° 
不 各行 任 同 更 新 F) 
用 查询 的 关键 字 : 
f asa Ham 流 里 的 字段 1 。 流 里 的 字段 2 EE 
z 
ENF 
$ aR ü R 更 新 | 殉职 和 更 新 字段 | 
[Ri 
Duelp] (azo || mao J| sa | 
图 5-127 选择 要 插入 数据 的 数据 表 Personnel_ Information_New 
9 插入 /更 新 [elm] = J 
DRE 插入 /更 新 
数据 库 连 接 |transform_veriyl - Ss rE [wizara.-] 
ar GE 
目标 表 Personnel_Information_ New © [ws] 
提交 记录 数量 100 ° 
TETE: E 
用 来 查询 的 关键 字 : 
[f mem Ma ARNIM O 流 里 的 字段 2 
1 | USERID = USERID 


图 5-128 配置 “插入 /更 新 "控件 


Personnel_Information 中 的 数据 进行 转换 并 更 新 到 新 的 数据 表 Personnel_ Information _ 


New 中 ,具体 如 图 5-129 所 示 。 
从 图 5-129 中 执行 结果 的 “步骤 度量 "可 以 看 出 ,“ 表 输入 ”控件 输入 501 条 数据 并 写 入 
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图 5-129 运行 转换 data _consistency 


该 控件 ;“ 值 映射 "控件 读 取 “ 表 输 入 ”控件 中 的 501 条 数据 并 写 和 人 该 控件 ;插入 /更 新 ?控件 
读 取 ”* 值 映射 "控件 中 的 501 条 数据 并 写 人 该 控件 ,将 写 人 的 数据 与 新 数据 表 输 入 的 501 条 
数据 进行 比较 ,将 501 条 数据 的 比较 结果 进行 输出 。 


6. 查看 数据 表 Personnel_ Information_New 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 Personnel_ Information_New 是 否 已 成 功 插入 501 条 
数据 ,查看 结果 如 图 5-130 所 示 。 
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图 5-130 ”数据 表 Personnel_ Information_New 


从 图 5-130 中 可 以 看 出 ,数据 表 Personnel_ Information_New 中 已 插入 501 条 数据 (这 
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里 只 展示 数据 表 中 的 部 分 数据 ) ,说 明 我 们 成 功 实现 了 将 数据 表 Personnel_Information 中 
的 数据 进行 转换 操作 ,并 将 转换 操作 完 的 数据 插入 新 数据 表 Personnel_ Information _ 
New 中 。 

由 于 转换 data _consistency 的 运行 只 是 单 次 的 , 若 后 续 需 要 将 原始 数据 进行 转换 ,插入 
操作 , 则 需要 运行 该 转换 ,这 样 工作 效率 很 低 ,因此 ,通过 Kettle 工具 创建 一 个 作业 ,对 转换 


data _consistency 设置 定时 器 ,使 得 转换 data _consistency 程序 定时 自动 执行 数据 同步 的 
操作 。 


7. 打开 Kettle 工具 ,创建 作业 


使 用 Kettle 工具 创建 作业 data _consistency_job ,并 添加 Start 控件 “转换 ”控件 以 及 
作业 跳 连 接线 ,具体 效果 如 图 5-131 所 示 。 


Z% data consistency job © 
p+ PD JE 1% ~ 


Start 


图 5-131 创建 作业 data _consistency_job 


8. 配置 Start 控件 


双击 图 5-131 中 的 Start 控件 ,进入 “作业 定时 调度 ”界面 ,具体 如 图 5-132 所 示 。 

在 图 5-132 中 勾 选 “重复 ” 复 选 框 ;在 “类 型 "后 的 下 拉 列 表 中 选择 “时 间 间 隔 ” 定 时 ,并 设 
置 “ 以 秒 计算 的 间隔 ”是 5,“ 以 分 钟 计算 的 间隔 ”是 0( 即 每 5 秒 运行 一 次 转换 ,实现 数据 同 
步 ), 具 体 如 图 5-133 所 示 。 


D 作业 定时 调度 P. 作业 定时 凋 度 
Job entry name Start Job entry name Start 
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“x TT 
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SAÍ 图 saji 自 
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图 5-132 “作业 定时 调度 ”界面 图 5-133 ”设置 执行 转换 的 时 间 间 隔 
在 图 5-133 中 单 击 “ 确 定 ” 按 钮 ,完成 Start 控件 的 配置 。 
9. 配置 “转换 ”控件 


双击 图 5-131 中 的 “转换 ”控件 ,进入 “转换 ”界面 ,具体 如 图 5-134 所 示 。 
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图 5-134 “转换 "界面 


在 图 5-134 中 单 击 “ 浏 览 ” 按 钮 ,选择 添加 转换 data _consistency 至 作业 中 ,如 图 5-135 


所 示 。 
x 转换 lela] 
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转换 AR 
Transformation: 
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A 5-135 ”添加 转换 data _consistency 至 作业 中 
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在 图 5-135 中 单 击 “确定 ?按钮 ,完成 “转换 ”控件 的 配置 。 
10. 运行 作业 data _consistency_job 


单 击 作业 工作 区 顶部 的 加 按钮 ,运行 创建 的 作业 data _consistency_job ,实现 让 数据 表 
Personnel_Information 中 的 数据 定时 进行 转换 ,并 更 新 到 数据 表 Personnel_ Information_ 
New 中 ,具体 如 图 5-136 所 示 。 
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图 5-136 运行 作业 data _consistency_job 


从 图 5-136 中 控制 台 的 日 志 输 出 可 以 看 出 ,作业 每 隔 5 秒 执行 一 次 转换 ,实现 数据 同步 
并 且 在 执行 过 程 中 会 记录 处 理 的 数据 量 以 及 当前 时 间 段 处 理 的 数据 条 数 ,说 明 已 经 成 功 实 
现 了 让 数据 表 Personnel_Information 中 的 数据 定时 进行 转换 ,并 更 新 到 数据 表 Personnel_ 


Information_New 中 。 


5.4.2 数据 规范 化 处 理 


由 于 数据 源 系统 分 散在 各 个 业务 线 上 ,不 同业 务 线 对 数据 的 要 求 、 理 解 和 规范 也 不 同 ， 
这 样 就 会 导致 对 同一 数据 对 象 的 描述 规格 完全 不 同 , 因 此 ,在 数据 清洗 的 过 程 中 需要 将 统一 
数据 规范 的 数据 抽取 出 来 进行 规范 处 理 。 

为 了 提高 数据 的 可 读 性 及 合理 性 ,企业 会 要 求 数据 遵守 一 定 的 规范 ,具体 规范 如 下 。 

(1) 电子 邮箱 的 地 址 必须 是 有 效 的 格式 。 
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(2) 输入 的 数据 都 必须 是 大 写 /小 写 。 

(3) 日 期 必须 是 dd-mm-yyyy 的 格式 。 

(4) 电话 号 码 必 须 是 xxx-xxxx-xxxx 的 格式 。 

(5) 用 户 的 年 龄 必须 大 于 18 岁 。 

(6) 数值 不 能 超过 预定 义 的 值 。 

综 上 所 述 ,这 些 规范 都 有 一 个 共同 点 , 即 检查 数据 都 必须 遵守 预定 义 的 业务 规则 , 找 出 
不 符合 业务 规则 的 数据 。 

下 面 通过 Kettle 工具 分 步 又 讲解 如 何 对 数据 进行 检验 操作 ,具体 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 data_validation, 并 添加 “ 自 定义 常量 数据 ”控件 “计算 器 ” 控 
件 “ 数 据 检验 ”控件 “ 空 操作 ?控件 以 及 Hop 跳 连接 线 , 具 体 效果 如 图 5-137 所 示 。 


FX data validation &3 
>- N0-00F SEE Æ 0% ~ 


SRE (HADER 2 


图 5-137 创建 转换 data_validation 


2. 配置 “ 自 定义 常量 数据 ”控件 


双击 图 5-137 中 的 “ 自 定义 常量 数据 "控件 ,进入 “ 自 定义 常量 数据 "界面 配置 实验 用 数 
据 ,如 图 5-138 所 示 。 


[ wo | 


图 5-138 “ 自 定义 常量 数据 "界面 


在 图 5-138 中 单 击 “ 元 数据 ”选项 卡 , 添 加 字段 常量 ProductionDate、ProductionName、 
ProductionNumber 以 及 CommoditySales 并 指定 其 数据 类 型 ; 单 击 “ 数 据 ” 选 项 卡 , 添 加 自 定 
义 的 数据 ,具体 效果 如 图 5-139 所 示 。 

在 图 5-139 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 自 定义 常量 数据 ”控件 的 配置 。 
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图 5-139 “ 自 定义 常量 数据 ”控件 配置 的 效果 图 
3. 配置 “计算 器 ”控件 
双击 图 5-137 中 的 “计算 器 "控件 ,进入 “计算 器 "界面 ,如 图 5-140 所 示 。 
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图 5-140 “计算 器 ”界面 


在 图 5-140 中 的 “字段 ”处 添加 一 个 新 字段 UnitPrice, 用 于 存储 计算 出 的 产品 单价 数 
据 ;在 “字段 A” 和 “字段 B” 处 的 下 拉 选 项 中 分 别 选 择 CommoditySales (销售 额 ) 和 


ProductionNumber( 销 售 数量 ) 字 段 ;在 “计算 "处 的 下 拉 框 中 选择 “A/B”, 即 表示 将 字段 A 
与 字段 B 进行 相 除 计算 ,具体 如 图 5-141 所 示 。 
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图 5-141 “计算 器 ”控件 配置 的 效果 图 
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在 图 5-141 中 单 击 “ 确 定 ” 按 钮 ,完成 “计算 器 "控件 的 配置 。 
4. 配置 “数据 检验 ”控件 
双击 图 5-137 中 的 “数据 检验 ”控件 ,进入 “数据 检验 ”界面 ,如 图 5-142 所 示 。 


让 数据 检验 2e x J) 
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图 5-142 “数据 检验 ”界面 


在 图 5-142 中 单 击 “ 增 加 检验 ”按钮 ,增加 检验 条 件 ,这 里 我 们 制定 的 检验 条 件 有 3 +, 
即日 期 (ProductionDate) 不 能 在 2019 年 1 月 1 日 之 前 ,产品 名称 (ProductionNmae) 必 须 是 
小 写 以 及 单个 产品 价格 (UnitPrice) 不 能 超过 10。 

单 击 图 5-142 中 的 “增加 检验 ”按钮 ,弹出 “数据 检验 ”窗口 ,在 该 窗口 中 添加 检验 名 称 date_ 
verify 用 于 校 验 日 期 ,添加 后 单 击 “ 确 定 ” 按 钮 关闭 “数据 检验 ”窗口 ,效果 如 图 5-143 所 示 。 


图 5-143 ”指定 第 一 个 检验 条 件 的 名 称 为 date verify 


在 图 5-143 中 单 击 检验 date_verify, 右 边 的 空白 框 中 会 出 现 配置 第 一 个 检验 条 件 的 相 
关 参 数 , 具 体 如 图 5-144 所 示 。 

在 图 5-144 中 的 “要 检验 的 字段 名 ”处 添加 要 检验 的 字段 ;在 “错误 代码 ”和 “错误 描述 ” 
处 自 定义 检验 到 错误 数据 时 日 志 的 输出 内 容 ; 勾 选 “ 检 验 数 据 类 型 " 复 选 框 ;在 “数据 类 型 "处 
指定 数据 类 型 ,用 于 判断 指定 检验 字段 的 数据 类 型 与 这 里 指定 的 数据 类 型 是 否 一 致 ;在 “ 转 
换 掩 码 ” 处 输入 与 指定 检验 字段 相同 的 日 期 格式 , 若 指定 的 检验 字段 日 期 格式 与 Kettle 默 
认 的 日 期 格式 不 同 , 则 报错 ;在 “最 小 值 ” 处 添加 检验 条 件 , 具 体 如 图 5-145 所 示 。 

单 击 图 5-145 中 的 “增加 检验 ”按钮 ,弹出 “数据 检验 ”窗口 ,在 该 窗口 中 添加 检验 名 称 
name_verify 用 于 检验 商品 名 称 , 添 加 后 单 击 “ 确 定 ” 按 钮 关闭 “数据 检验 ”窗口 ,效果 如 图 5-146 
所 示 。 
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EE date verify s 
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图 5-145 第 一 个 检验 条 件 的 配置 
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(Oner) (meo |[ mama ]| mena |[ mao ] 
图 5-146 ”指定 第 二 个 检验 条 件 的 名 称 为 name_ verify 


在 图 5-146 中 的 “要 检验 的 字段 名 ”处 添加 要 检验 的 字段 ;在 “错误 代码 ”和 “错误 描述 ” 
处 自 定义 检验 到 错误 数据 时 日 志 的 输出 内 容 ;在 “合法 数据 的 正则 表达 式 ” 处 添加 检验 条 件 
进行 判断 ,这 里 添加 的 正则 表达 式 用 于 检验 产品 名 称 是 否 为 小 写 , 具 体 如 图 5-147 所 示 。 

单 击 图 5-147 中 的 “增加 检验 ”按钮 ,弹出 “数据 检验 ”窗口 ,在 该 窗口 中 添加 检验 名 称 
price_verify 用 于 检验 产品 单价 ,添加 后 单 击 “ 确 定 ”按钮 关闭 “数据 检验 ”窗口 ,效果 如 图 5-148 
所 示 。 

在 图 5-148 中 的 “要 检验 的 字段 名 ”处 添加 要 检验 的 字段 ;在 “错误 代码 ”和 “错误 描述 ” 
处 自 定义 检验 到 错误 数据 时 日 志 的 输出 内 容 ; 勾 选 “检验 数据 类 型 " 复 选 框 ;在 “数据 类 型 "处 
指定 数据 类 型 ;在 “小 数 点 符号 ”处 添加 小 数 点 符号 , 即 “.”; 在 “最 大 值 ” 处 添加 检验 条 件 , 具 
体 如 图 5-149 所 示 。 

在 图 5-149 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 检验 ”控件 的 配置 。 


5. 配置 “ 空 操作 ”控件 


单 击 选中 图 5-137 中 的 “数据 检验 ”控件 ,然后 按 住 Shift 键 ,通过 分 发 方式 设置 “ 主 输出 
步 又 ?连接 到 * 空 操作 (什么 也 不 做 )? 控 件 ; 设 置 “ 错 误 处 理 步骤 ?连接 到 * 空 操作 (什么 也 不 
做 )2” 控 件 ,如 图 5-150 所 示 。 
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图 5-148 ”指定 第 三 个 检验 条 件 的 名 称 为 price verify 
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图 5-149 配置 第 三 个 检验 条 件 的 参数 


空 操作 (什么 也 不 合 ) 2 


图 5-150 配置 “ 空 操作 ”控件 


6. 运行 转换 data_validation 


单 击 转换 工作 区 顶部 的 圆 按钮 ,运行 创建 的 转换 data_validation, 实 现 对 数据 进行 检验 
操作 ,具体 如 图 5-151 所 示 。 

从 图 5-151 中 执行 结果 的 “步骤 度量 ”可 以 看 出 ,“ 自 定义 常量 数据 ”控件 写 入 5 条 数据 ; 
“计算 器 ”控件 读 取 “ 自 定义 常量 数据 ”控件 的 5 条 数据 并 写 入 该 控件 ;“ 数 据 检验 ”控件 读 取 
“计算 器 ”控件 的 5 条 数据 ,将 符合 校 验 要 求 的 2 条 数据 写 入 该 控件 ;* 空 操作 (什么 也 不 做 ) 
2” 控 件 读 取 并 写 入 不 符合 校 验 要 求 的 3 条 数据 ;* 空 操作 (什么 也 不 做 )” 控 件 读 取 并 写 入 符 
合 要 求 的 2 条 数据 。 

选中 图 5-151 中 的 “ 空 操作 (什么 也 不 做 )2” 控 件 , 单 击 执行 结果 窗口 的 Preview data 选 
项 卡 ,查看 是 否 将 不 符合 校 验 规则 的 数据 检验 出 来 ,具体 如 图 5-152 所 示 。 

从 图 5-152 中 可 以 看 出 ,原始 数据 中 不 符合 校 验 规则 的 3 条 数据 均 被 检验 出 来 ,说 明 我 
们 通过 Kettle 工具 实现 了 数据 检验 的 功能 。 
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(SX data validation 3 
P 7 H Dl ei BOR FJ 10% ~ 
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执行 结果 口 X 
和 目 B 志 | 回执 5 历史 [及 SEREN |+: e] Metrics| ® Preview data| 
® 
F 步骤 名 称 复制 的 记录 行 数 读 5 输入 eH 更 新 拒绝 WR 激活 
1 自 定 义 第 量 数据 0 0 5 0 0 0 0 0 已 完成 
2 waa ep sj s 0 0 0 0 0 已 完成 
3 ”数据 检验 o s| 2 0 0 0 3 0 已 完成 
4 fz (什么 也 不 他 2 Sj aj s 0 0 0 0 0 已 完成 
5 mít o| 2| 2 0 0 0 0 0 已 完成 
| d 
E 5-151 运行 转换 data validation 
执行 结果 Úx 
B B= [O 执行 历史 | 三 +m | em [2 Metrics [bo Preview data 
@ $(TransPreview.FirstRows-Label) © $(TransPreview.LastRows-Label) © $(TransPreview.Off-Label) 
LË ProductionDate — productionName ProductionNumber — CommoditySales — Unitprice ^ 
1 2019-01-23 potatochips 6 3300 55.0 
2 2019-03-01 CANDY 56 728 13 
3 2018-12-26 biscuits 1122 7068.6 63 ~ 


图 5-152 查看 是 否 将 不 符合 校 验 规则 的 数据 检验 出 来 


5.5 ”本章 小 结 
本 章 主要 讲解 数据 清洗 与 检验 的 相关 知识 ,包括 数据 去 重 、 缺 失 值 处 理 、 异 常 值 处 理 以 


及 数据 检验 。 和 希望 读者 通过 本 章 的 学 习 , 可 以 掌握 对 重复 数据 、 缺 失 值 数据 、 异 常 值 数据 的 
处 理 , 也 可 以 掌握 对 数据 进行 检验 操作 。 


5.6 本 章 习 题 


一 、 填空 题 

1. 常见 的 数据 清洗 操作 包括 重复 值 的 处 理 、 \ 异 常 值 的 处 理 。 

2. 数据 缺失 分 为 两 种 ,分 别 是 行 记录 的 缺失 和 š 

3. 异常 值 的 检测 方法 通常 分 为 三 大 类 , 即 \ 监 督 式 异 常 值 的 检测 以 


及 š 


1⁄7 
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4. 数据 的 一 致 性 有 3 种 类 型 , 即 强 一 致 性 、 以 及 最 终 一 致 性 。 

5. 修补 异常 值 的 方式 主要 有 两 种 , 即 和 蔡 换 异常 值 。 

二 、 判断 题 

.完全 去 重 指 的 是 消除 不 完全 重复 的 数据 。 € 3 


i 

2. 缺失 值 产生 的 原因 主要 是 人 为 原因 。 €: J 
3. 箱 形 图 又 称 为 箱 线 图 ,是 一 种 用 于 显示 一 组 数据 分 散 情况 的 统计 图 。 (€ 2 
4. 数据 一 致 性 是 指 在 对 一 个 副本 数据 进行 更 新 的 同时 ,无 须 确保 也 能 更 新 到 其 他 


副本 。 ( ) 
5. 检查 数据 都 必须 遵守 预定 义 的 业务 规则 , 找 出 不 符合 业务 规则 的 数据 。 (€ ) 
=. 选择 题 
1. 下 列 方法 中 ， 不 是 填充 缺失 值 的 方法 。 
A. 均值 填充 B. 热 卡 填充 C. 3o 准则 D. 回归 填充 


2. 下 列 规范 中 ,为 了 提高 数据 的 可 读 性 及 合理 性 ,企业 会 要 求 数据 遵守 
A. 电子 邮箱 的 地 址 必须 是 有 效 的 格式 
B. 用 户 的 年 龄 必须 小 于 18 岁 
C. 数值 可 超过 预定 义 的 值 
D. 电话 号 码 无 须 是 xxx-xxxx-xxxx 的 格式 


3. 下 列 策略 中 ， 不 属于 修改 异常 值 的 策略 。 

A. 最 邻近 值 蔡 代 异常 值 B. 均值 蔡 代 异常 值 

C. 众 数 蔡 代 异常 值 D. 异常 值 蔡 换 成 缺失 值 
四 、 操 作 题 


通过 Kettle 工具 ,实现 以 下 功能 : 
(1) 对 文件 merge. csv 进行 完全 去 重 。 
(2) 对 文件 people_survey. txt 中 的 缺失 值 进行 填充 。 
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学 习 目 标 

(1) 熟悉 多 数据 源 的 合并 
(2) 掌握 不 一 致 数据 转换 
(3) 掌握 数据 粒度 的 转换 
(4) 掌握 数据 的 合计 处 理 


数据 的 清洗 过 程 除 了 包括 第 5 章 提 到 的 对 数据 本 身 的 清洗 与 检验 操作 ,还 包括 数据 转 
换 操 作 。 数 据 转 换 是 数据 清洗 过 程 的 重要 步骤 之 一 , 它 的 主要 任务 是 进行 不 一 致 数据 的 转 
换 、 数 据 粒度 的 转换 ,以 及 一 些 商务 规则 的 计算 。 本 章 将 针对 数据 转换 的 相关 知识 进行 详细 
讲解 。 


6.1 多 数据 源 的 合并 


随 着 信息 技术 的 发 展 和 科技 的 进步 ,人 类 步 人 大 数据 时 代 , 大 数据 作为 当前 高 科技 时 代 
的 产物 , 它 的 种 类 多 而 繁杂 。 如 果 想 得 到 需要 的 数据 ,这 些 需要 的 数据 有 可 能 来 源 于 多 个 不 
同 的 数据 源 中 ,此 时 我 们 可 以 将 多 个 数据 源 进行 合并 操作 ,从 而 获取 到 所 需要 的 数据 。 

假设 某 公 司 旗下 有 两 个 子 公司 ,分别 为 A 公司 和 BB 公司 , 且 这 两 个 子 公司 均 在 销售 手机 ， 
其 中 A 公司 的 手机 日 销售 情况 存储 在 CSV 文件 中 , 即 文件 company_a. csv;B 公司 的 手机 日 销 
售 情况 存储 在 数据 库 的 数据 表 中 , 即 数据 表 company_b, 具 体内 容 如 图 6-1 和 图 6-2 所 示 。 

下 面 通过 Kettle 工具 将 A 公司 和 B 公司 的 手机 日 销售 数据 合并 到 一 个 数据 源 ( 数 据 表 
company) 中 ,也 就 是 对 文件 company_a. csv 和 数据 表 company_b 中 的 数据 进行 合并 操作 ， 
并 输出 到 数据 表 company 中 ,具体 实现 步骤 如 下 。 


1. 打开 Kettle 工具 .创建 转换 


使 用 Kettle 工具 创建 转换 company_merge, 并 添加 “CSYV 文件 输入 ”控件 “ 表 输 入 ” 控 
件 “ 字 有 段 选择 ”控件 “排序 合并 ”控件 “增加 序列 "控件 “ 表 输 出 ”控件 以 及 Hop 跳 连接 线 ， 
具体 效果 如 图 6-3 所 示 。 


2. 配置 “CSV 文件 输入 ”控件 
双击 图 6-3 中 的 “CSV 文件 输入 ”控件 ,进入 “CSV 文件 输入 ”界面 ,具体 如 图 6-4 所 示 。 


数据 清洗 
id saleshrea brand nodel wnitPrice — number 
1 北京 市 苹果 苹果 iPhone 11 Pro (6CB/64GE/ 全 网 通 ) 8699 50 
2 上 海 市 苹果 苹果 iPhone 11 Pro (6GB/256GB/+- PA) 9999 20 
3 北京 市 = 三 星 GALAXY Note 10+ (12CB/256CB/ 全 网 通 /5c 版 ? 7999 32 
4 石家庄 市 OPPO OPPO Reno2 (8GB/128GE/ $ PÄ) 2999 20 
5 大 连 市 OPPO OPPO Reno 10 信 变焦 版 (86B/2566B/ 全 网 通 》 4299 35 
6 素 皇 鸟 市 vivo vivo NEX 3 (8GB/256CB/ 全 网 通 /5 版 》 5698 26 
d 青岛 市 vivo vivo iQ00 Pro (8GB/128GB/5G+ PĀ) 3798 25 
8 西安 市 华为 华为 P30 Pro (8CB/128CB/ 全 网 通 ) 4988 30 
9 大 同市 小 米 小 米 9 Pro (85B/256CB/ 全 网 通 /5 版》 3799 22 
10 重庆 市 革 果 革 果 iPhone 11 Pro Max (6CB/64GB/ 全 网 通 ) 9699 38 
11 哈尔滨 市 OPPO OPPO R17《〈8CB_RAN/ 全 网 通 ) 2499 29 
12 深圳 市 苹果 苹果 iPhone 11 Pro Max (6GB/646B/ 全 网 通 》 9599 36 
13 西安 市 苹果 苹果 iPhone 11 Pro (66B/256GB/ 全 网 通 ) 9999 15 
14 太原 市 华为 华为 P30 Pro (BCB/128GB/ 全 网 通 ) 4988 24 
15 天 津 市 三 三 星 GALAXY Note 10〈8GB/256CB/ 全 网 通 ) 6599 23 
16 武汉 市 小 米 小 米 9 86B/256GB/ 全 网 通 》 2999 37 
17 素 皇 鸟 市 vivo vivo X27 Pro (8GB RAN/ 全 网 通 ) 3598 33 
18 大 连 市 苹果 苹果 iPhone 11 Pro (6CB/64CB/ 全 网 通 ) 8699 18 
19 上 海 市 华为 华为 Kate30〈86B/1286B/ 全 网 通 /56 版 /玻璃 版 > 4999 42 
20 北京 市 华 华为 Mate30 Pro (8CB/256CB/ 全 网 通 /5c 版 /琉璃 版 7 6899 35 


图 6-1 文件 company_a. csv 的 数据 内 容 


华为 nova 5 Pro〈8GB/128GB/ 全 网 通 ) 


| 苹果 iPhone 11 (4GB/646B/ 全 网 通 ) 


[OPPO Reno2〔86B/1286B/ 全 网 通 ) 


| 华为 Mate30 《86B/1286B/ 全 网 通 /56 版 /玻璃 版 ) 


[vivo iQ00 Pro〈8GB/128GB/56G 全 网 通 ) 


[vivo NEX 3〔8GB/128GB/ 全 网 通 ) 


苹果 iPhone 11 Pro Max〔6GB/64GB/ 全 网 通 ) 


小 米 9 (86B/2566B/ 全 网 通 ) 


四 川 省 


ER iPhone 11 Pro Max (66B/646B/ 全 网 通 ) 


陕西 省 


小 米 9 Pro〈8GB/256GB/ 全 网 通 /5G 版 ) 


上 海 市 


华为 Mate 20 X 〈8GB/2566GB/ 全 网 通 /5G 版 ) 


北京 市 


三 星 Salaxy 510+ (8GB RAM/ 陶 次 版 /全 网 通 ) 


河北 省 


ER Phone 11 46B/1286B/ 全 网 通 ) 


浙江 省 


ER iPhone 11 46B/2566B/ 全 网 通 ) 


天 津 市 


小 米 9 Pro〈8GB/256GB/ 全 网 通 /5G 版 7 


上 海 市 


华为 Mare30〔8GB/128GB/ 全 网 通 /56 版 /玻璃 版 ? 


重庆 市 


ER iPhone 11 4GB/646B/ 全 网 通 ) 


山东 省 


| 华为 Mate30 Pro 8GB/1286B/ 全 网 通 ) 


陕西 省 


小 米 MIX 3 C6GB RAM/ 全 网 通 ) 


山西 省 


华 ; 和 Mare30 Pro 〈8GB/256GB/ 全 网 通 /56 版 /琉璃 版 7 


图 6-2 数据 表 company_b 的 数据 内 容 
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图 6-3 创建 转换 company_merge 
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é 名 称 类 型 z KE 精度 货币 符号 小数点 符号 ”分 组 符号 。 去除 空格 类 型 
£ 
[Oses] [me ][ mao ] 


图 6-4 “CSV 文件 输入 "界面 


单 击 图 6-4 中 的 “浏览 ”按钮 ,选择 要 抽取 的 CSV 文件 company_a. csv; 单 击 " 获 取 字 段 ” 
按钮 ,Kettle 自动 检索 CSV 文件 获取 字段 名 称 ,并 对 文件 中 字段 的 类 型 .格式 ,长 度 、 精 度 等 
属性 进行 解析 ,具体 效果 如 图 6-5 所 示 。 


Í P. csv xean Ee s= J 
DEER CSV 文 件 输入 


[Err | | e [=s] 
: + mano) 
° 

° 

° 

ae 


文件 名 
列 分 隔 符 
SDA 
NIO 缓存 大 小 50000 
简易 转换 ? [g] 
包含 列 头 行 贺 
将 文件 添加 到 结果 文件 中 回 


下 四 


图 6-5 配置 “CSV 文件 输入 ”控件 


1825 数据 清洗 


单 击 图 6-5 中 的 “预览 ”按钮 ,查看 文件 company_a. csv 的 数据 是 否 抽 取 到 CSV 文件 输 
入 流 中 ,具体 效果 如 图 6-6 所 示 。 


预先 数据 = = 

步骤 CSV 文 件 输入 的 数据 (20 rows) 
着 id salesArea brand model unitprice number ^ 
1 1 北京 市 CH 。 ”苹果 iPhone 11 Pro ( 6GB/64GB/ 全 网 通 ) 8699 50 
2 2 上 海 市 == 苹果 Phone 11 Pro ( 6GB/256GB/ 全 网 通 ) 9999 20 
3 3 北京 市 == 三 星 GALAXY Note 10+ ( 12GB/256GB/ 全 网 通 /5G 版 ) 7999 32 
4 4 石家庄 市 。 OPPO OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 20 
5 5 大 连 市 OPO OPPO Reno 10 信 变焦 版 ( 8GB/256GB/ 全 网 通 ) 4299 35 
6 6 ”秦皇岛 市 vivo vivo NEX 3 ( 8GB/256GB/ 全 网 通 /5G 版 ) 5698 26 
7 7 Wm vivo vivo iQOO Pro ( 8GB/128GB/5G 全 网 通 ) 3798 25 
8 8 西安 市 华为 华为 P30 Pro ( 8GB/128GB/ 全 网 通 ) 4988 30 
9 9 大 同市 J% 小 米 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 22 
10 10 重庆 市 R 苹果 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9699 38 
11 11 哈尔滨 市 OPPO — OPPO R17 ( 8GB RAM/ 全 网 通 ) 2499 29 
12 12 aih == 苹果 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 36 
13 13 西安 市 7R 芋 果 iphone 11 Pro ( 6GB/256GB/ 全 网 通 ) 9999 15 
14 14 太原 市 华为 华为 P30 Pro ( 8GB/128GB/ 全 网 通 ) 4988 24 
15 15 天津 市 =m 三 星 GALAXY Note 10 ( 8GB/256GB/ 全 网 通 ) 6599 23 
16 16 武汉 市 J% 小 米 9 ( 8GB/256GB/ 全 网 通 ) 2999 37 
17 17 秦皇岛 市 vivo vivo X27 Pro ( 8GB RAM/ 全 网 通 ) 3598 33 
18 ”18 大 连 市 =e 苹果 iPhone 11 Pro ( 6GB/64GB/ 全 网 通 ) 8699 18 
19 19 上 海 市 华为 华为 Mate30 ( 8GB/128GB/ 全 网 通 /5G 版 / 破 殉 版 ) 4999 42 
20 20 北京 市 华为 华为 Mate30 Pro ( 8GB/256GB/ 全 网 通 /5G 版 /起 玉 版 ) 6899 35 Ë 


图 6-6 预览 数据 


从 图 6-6 中 可 以 看 出 ,CSV 文件 company_a. csv 的 数据 已 经 成 功 抽取 到 CSV 文件 输入 
流 中 , 单 击 “ 关 闭 ” 一 “确定 ”按钮 .完成 “CSV 文件 输入 "控件 的 配置 。 


3. 配置 “字段 选择 ”控件 
双击 图 6-3 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ”界面 ,如 图 6-7 所 示 。 


Es 选择 /改名 值 elel = J 
SERER 字段 选择 

选择 和 修改 S. EB | 元 数据 | 

字段 : 


6-7 “选择 /改名 值 ” 界 面 
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在 图 6-7 中 “选择 和 修改 ”选项 卡 的 “字段 ”处 可 以 手动 添加 “CSV 文件 输入 ”控件 输出 的 
所 有 数据 字段 ,也 可 以 单 击 “ 获 取 选 择 的 字段 ”按钮 ,Kettle 工具 自动 检索 并 添加 “CSV 文件 
输入 "控件 输出 的 所 有 数据 字段 ,具体 如 图 6-8 所 示 。 


E sss 
DEER Fm 
字段 : 
B == "= 区 
z (PRAS 
2 
3 
4 
5 
6 - 
包含 未 指定 的 列 按 名 称 排序 回 
“ë= 


图 6-8 Kettle 检索 字段 
在 图 6-8 中 选择 “元 数据 ”选项 卡 , 切 换 到 “元 数据 ”选项 卡 界面 ,如 图 6-9 所 示 。 


E RAZE lela] z J 


步骤 名 称 字段 选择 


选择 和 修改 移 除 [天 数据 
需要 改变 元 数据 的 字段 : 
£ +E — 改名 成 。 类 型 R 精度 Binary to Normal? 格式 “Date Format Lenient? 


图 6-9 “元 数据 ?选项 卡 界 面 


在 图 6-9 中 添加 需要 改变 元 数据 的 字段 ,将 “字段 选择 ” 流 中 的 字段 进行 一 致 性 处 理 , 即 
单 击 “ 获 取 改 变 的 字段 "按钮 ,获取 要 改变 的 字段 ,并 在 Binary to Normal 列 的 下 拉 框 中 选择 
“是 ”, 使 得 CSV 文件 company_a. csv 中 数据 的 字段 类 型 与 数据 表 company_b 中 数据 的 字 
段 类 型 一 致 ,具体 如 图 6-10 所 示 。 

在 图 6-10 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 


4. 配置 “ 表 输 入 ”控件 


双击 图 6-3 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 6-11 所 示 。 

在 图 6-11 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 6-12 所 示 。 

在 图 6-11 的 SQL 框 中 编写 查询 数据 表 company_b 中 数据 的 SQL 语句 ,然后 单 击 “ 预 
览 ” 按 钮 ,查看 数据 表 company_b 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 表 输 入 流 中 ， 
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精度 。 Binaryto Normal? “f “ 
1 id 5 0 是 
2 salesArea 4 是 
3 brand 4 是 
4 model 37 s 
5 unitprice 5 0 是 
6 _ number 15 0 是 < 
——ƏƏ na) + 


图 6-10 “元 数据 ”选项 卡 的 配置 


EL SA =|| z 


SQL 


SELECT “valuesy FROM <table name> WHERE “Conditions》 
1 


t170 
允许 简易 转换 回 
të SQL 语句 里 的 变量 回 
从 步 要 插入 数据 a 
执行 每 一 行 ? [DJ 
记录 数量 限制 0 ° 


图 6-11 “ 表 输 入 "界面 


F] Use Result Streaming Cursor 


图 6-12 MySQL 数据 库 连 接 的 配置 
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具体 如 图 6-13 和 图 6-14 所 示 。 


EL SA lele] x= 
SEER SAA 


[SELECT * FROM conpany_b 引 


. » 


行 2 列 0 


图 6-13 编写 SQL 语句 


图 mama [= = 
DR SAG 的 数据 (20 rows) 
“£ id salesArea brand model unitPrice number ~ 
1 1 it sh 华为 nova 5 Pro ( 8GB/128GB/ 全 网 通 ) 2999 31 
2 2 山西 二 == FRiPhone 11 ( 4GB/64GB/ 全 网 通 ) 5499 20 
3 3 河北 齐 Oppo OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 z 
4 4 黑龙江 省 华为 华为 Mate30 ( 8GB/128GB/<F:R/5GIK SRE ) 4999 34 
5 5 陕西 省 vivo vivo iQOO Pro ( 8GB/128GB/5G 全 网 通 ) 3798 38 
6 6 北京 市 vivo vivo NEX 3 ( 8GB/128GB/ 全 网 通 ) 4998 26 
7 7 =e =. HiPhone 11 Pro Max ( 6GB/654GB/ 全 网 通 ) 9599 18 
8 8 重庆 市 小 米 小 米 9 ( 8GB/256GB/ 全 网 通 ) 2999 26 
9 9 mis k. 苹果 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 35 
10 10 ”陕西 省 Jk 小 泣 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 39 
u H 上 海 市 4 为 华为 Mate 20 X ( 8GB/256GB/ 全 网 通 /5G 版 ) 6199 42 
12 12 北京 市 =m 三 星 Galaxy S10+ ( 8GB RAM/AW8K/4 FN ) 7499 27 
3 13 河北 齐 bad HiPhone 11 ( 4GB/128GB/ 全 网 通 ) 5999 20 
14 14 IS =. FRiPhone 11 ( 4GB/256GB/ 全 网 通 ) 6799 29 
15 15 Ft Kad 7139 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 35 
16 16 上 海 市 Sh 华为 Mate30 ( 8GB/128GB/FER/SGN ESE ) 4999 30 
m” 17 里 市 == HiPhone 11 ( 4GB/54GB/ 全 网 通 ) 5499 38 
18 18 Uute 4 为 华为 Mate30 Pro ( 8GB/128GB/ 全 网 通 ) 5799 20 
19 19 BAS N KMIX 3 ( 6GB RAM/ 全 网 通 ) 2299 33 
20 2 山西 上 EA 华为 Mate30 Pro ( 8GB/256GB/FER/5GIS/ESEIE ) 6899 207 


图 6-14 预览 数据 


从 图 6-14 中 可 以 看 出 ,数据 表 company_b 的 数据 已 经 成 功 从 MySQL 数据 库 中 抽取 到 
表 输入 流 中 , 单 击 “ 关 闭 ” 一 “确定 ”按钮 ,完成 “ 表 输 入 ”控件 的 配置 。 


5. 配置 “排序 合并 ”控件 


双击 图 6-3 中 的 “排序 合并 ”控件 ,进入 “排序 合并 ”界面 ,如 图 6-15 所 示 。 
在 图 6-15 的 字段 框 中 指定 按 字段 id 进行 升序 排序 ,如 图 6-16 所 示 。 
在 图 6-16 中 单 击 “ 确 定 ” 按 钮 ,完成 “排序 合并 ”控件 的 配置 。 


86. 数据 清洗 


E= 排序 合并 L= = 
RER 排序 合并 

字段 : 

|£ | FRZ 升序 

1 

[Os] — [ meo |( mo J| anse | 
图 6-15 “排序 合并 ”界面 

D 排序 合并 [= EJ 
DEER 排序 合并 

字段 : 

f 字段 名称 AF 

1 id 是 

(Ore) [wo | mao ][ #wsa_ | 


图 6-16 “排序 合并 "控件 的 配置 
6. 配置 “增加 序列 "控件 


双击 图 6-3 中 的 “增加 序列 ”控件 ,进入 “增加 序列 "界面 ,如 图 6-17 所 示 。 


回 增加 序列 


lele] = 


DEER 增加 序列 
MNZ valuename 


使 用 数据 库 来 生成 序列 
使 用 DB 来 获取 sequence? [F] 


数据 库 连 接 [merge 了 | [久久] [F] [wizara..] 
模式 名 称 JO [schemas... 
Sequence 2r [SEQ] le [Sequences.. 
使 用 转 接 计 数 器 来 生成 序列 
使 用 计数 器 来 计算 sequence? 
计数 器 名 称 (可 选 ) 
起 始 值 1 ° 
增长 根据 1 ° 
最 大 值 999999999 ° 


(E [meo ][ mo] 


图 6-17 “增加 序列 "界面 


在 图 6-17 中 的 “ 值 的 名 称 ” 处 指定 要 增加 列 的 列 名 ,这 里 使 用 默认 的 名 称 , 即 
valuename, 其 他 配置 项 没有 任何 改变 ; 单 击 “ 确 定 ” 按 钮 ,完成 “增加 序列 ”控件 的 配置 。 
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7. 配置 “字段 选择 2 控件 


双击 图 6-3 中 的 “字段 选择 2” 控 件 ,进入 “选择 /改名 值 ” 界 面 ,如 图 6-18 所 示 。 


Es 选择 /改名 值 = 
SEER Sun 2 
TE e) E] 
a: 
|f seze Bam 长 度 精度 PR08542 fe | 
: [ew 
包 会 未 指定 的 列 按 名 称 排序 回 


图 6-18 “选择 /改名 值 "界面 


在 图 6-18 中 的 “选择 和 修改 ”处 选择 和 修改 选择 要 输出 的 字段 ,具体 如 图 6-19 所 示 。 


Es 选择 /改名 人 = 
DEER PMAR 2 

[EE 

字段: 

f FREE — BEM 长 度 精度 EE 
1 valuename id 

`= ms; 
3 brand 

4 model 

5 unitPrice 

6 number ~ 

包含 未 指定 的 列 按 名 称 排序 回 


图 6-19 “字段 选择 2" 控 件 的 配置 
在 图 6-19 中 单 击 “确定 ?按钮 ,完成 “字段 选择 2 控件 的 配置 。 
8. 配置 “ 表 输 出 ”控件 


双击 图 6-3 中 的 “ 表 输出 ”控件 ,进入 “ 表 输 出 ”界面 ,具体 如 图 6-20 所 示 , 

在 图 6-20 中 单 击 “ 新 建 "按钮 ,配置 数据 库 连接 (所 连接 的 数据 库 transform 须 提前 创 
EERIE) ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数据 库 连 接 的 配置 如 图 6-21 所 示 。 

单 击 图 6-20 中 目标 表 右 侧 的 “浏览 ?按钮 ,指定 输出 目标 表 , 即 数据 表 company( 该 表 须 
提前 创建 ,这 里 不 演示 ) ; 勾 选 “指定 数据 库 字 段 " 复 选 框 ,用 于 将 数据 表 company 的 字段 与 
“字段 选择 2” 控 件 输出 流 中 的 字段 进行 匹配 ,如 图 6-22 所 示 。 

单 击 图 6-22 中 的 “数据 库 字 有 段 ”选项 卡 , 具 体 如 图 6-23 所 示 。 

在 图 6-23 中 单 击 “ 输 入 字段 映射 "按钮 .弹出 “映射 匹配 ”对 话 框 ,具体 如 图 6-24 所 示 。 

在 图 6-24 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 ”对 应 的 字段 ,再 单 击 Add 按钮 ， 
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GE] 己 [ 回 | x J 


目标 表 
提交 记录 数量 1000 
ass n 
DAR 口 
指定 数据 库 字 和 银 回 
HERAN 数据库 字段 | 


表 分 区 数据 回 


[Onee] [mo | mo |[ sa] 


图 6-20 “ 表 输 出 "界面 


MS SQL Server (Native) - T 
MariaDB localhost ° 


*..... ° 
Use Result Streaming Cursor 


[æ J sena] ma J 


[ma ]J[ w J 


图 6-21 MySQL 数据 库 连接 的 配置 


将 一 对 映射 字段 添加 至 “映射 "选项 框 中 , 若 “ 源 字段 ”中 的 字段 和 “目标 字段 "中 的 字段 相同 ， 
则 可 以 单 击 “ 猪 一 猜 " 按 钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 6-25 所 示 。 

在 图 6-25 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 源 字 段 ” 与 “目标 字段 ”的 映射 匹配 。“ 表 输出 ”控件 
配置 的 效果 图 如 图 6-26 所 示 。 

在 图 6-26 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 出 ”控件 的 配置 。 


9. 运行 转换 company_merge 


单 击 转换 工作 区 顶部 的 圆 按钮 ,运行 创建 的 转换 company_merge, 实 现 将 A 公司 和 B 
公司 的 手机 日 销售 数据 合并 到 一 个 数据 源 ( 即 数据 表 company) 中 ,具体 如 图 6-27 所 示 。 
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| 
i 


每 个 月 分 区 数据 @ 
SENARE A 


[azo )[ wo ][ se J 


图 6-24 “映射 匹配 ?对 话 杠 


型 8ga 


190 数据 清洗 


3 BSP Lele rss 
源 字段 目标 字段 映射 
id -> id 
[aga] salesArea -> salesArea 
brand --> brand 
自动 选择 目标 amasa A | (D) | model —> model Ë 
隐藏 已 经 匹配 的 源 字 段 隐 茂 已经 匹配 的 目标 字段 ii ein 
number --> number 
图 6-25 设置 “映射 匹配 ” 
GE] l= 
2826 sagu 
数据 库 连 接 [merge -| Re EE) [izard] 
目标 模式 * pusm) 
ee * asas) 
提交 记录 数量 “1000 ° 
ans 回 
DIRAE 口 
指定 数据 库 字 段 团 
主 先 项 | 数据 库 字 段 
插入 的 字段 : 
BESA 流 字 段 Š 
1 id id 
2 er = EE] 
3 brand brand 
4 model model 
5 unitprice unitprice 
6 number number - 
- [ao] =] 
L 


图 6-26 “ 表 输 出 ”控件 配置 的 效果 图 


从 图 6-27 中 执行 结果 的 “步骤 度量 "可 以 看 出 ,“ 表 输入 ”控件 输入 20 条 数据 并 写 入 该 
控件 ;“CSV 文件 输入 ”控件 输入 21 条 数据 并 写 人 该 控件 20 条 数据 (1 条 表 头 数据 除外 )， 
“字段 选择 ”控件 从 “CSV 文件 输入 ”中 读 取 20 条 数据 并 写 入 该 控件 ;排序 合并 ”控件 从 * 表 
输入 "控件 和 "字段 选择 ?控件 分 别 读 取 20 条 数据 ,并 写 入 该 控件 ;* 增 加 序列 ”控件 从 “排序 
合并 ”控件 中 读 取 40 条 数据 ,并 写 人 该 控件 :字段 选择 2” 控 件 从 “增加 序列 "控件 中 读 取 40 


条 数据 并 写 入 该 控件 ;* 表 输出 ”控件 从 “字段 选择 2” 控 件 中 读 取 40 条 数据 并 写 人 该 控件 ， 
最 终 进 行 输出 。 


10. 查看 数据 表 company 中 的 数据 


通过 SQLyog 工具 .查看 数据 表 company 是 否 已 成 功 插入 40 条 数据 ,查看 结果 如 图 6-28 
所 示 ( 只 展示 部 分 数据 ) 。 

从 图 6-28 中 可 以 看 出 ,数据 表 company 中 插入 了 40 条 数据 ,说 明成 功 实现 了 将 AA 
司 和 B 公司 的 手机 日 销售 数据 合并 到 一 个 数据 源 ( 即 数据 表 company) 中 。 
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[FX company merge £3 
>- H [1 e XQIR FJ 10% ~ 


Ë B= @ m65 [Z SEER |“ Hem] Í Metrics| Sp Preview data| 


|° 

£ | 步 要 名 称 复制 的 记录 行 数 ”该 5 @A SH 更 新 错误 “激活 

1 SAA 0 0 2 2 0 0 0 已 完成 
2 CSV 文 件 纺 入 0 0 20 21 0 0 0 已 完成 

3 ”字段 选择 0 20 20 0 0 0 0 已 完成 

4 ”排序 合并 0 40 40 0 0 0 0 已 完成 

5 ”增加 序列 0 40 40 0 0 0 0 已 完成 

6 ”字段 选择 2 0 40 40 0 0 0 0 已 完成 
7 mah 0 40 40 0 40 0 0 已 完成 
ee F 


im 


|T © mmen S: do Plai oo | 


| 车 果 iPhone 11 (46GB/1286B/ 全 网 通 ) 

| 苹果 iPhone 11 Pro (668/25668/ 全 网 通 ) |3999 
| 华为 P30 Pro (BGB/1286B/ 全 网 通 ) 4988 
3E3RiPhone 11 〔4GB/256GB/ 全 网 通 ) 6799 
| 小 米 9 Pro 《86B/256GB/ 全 网 通 /56 版 ) 3799 


星 GALAXY Note 10〔86B/2566B/ 全 网 通 ) 


IOlia saa. at, O a) 
[=] 1| 北 京 市 | 华为 。” ”| 华为 nova 5 Pro (8GB/128GB/ 全 网 通 ) 2999 
| =Í 2 北京 市 苹果 | 等 果 1Phone 11 Pro (66GB/64GB/ 全 网 通 ) e699 
[=] 3| 上 海 市 苹果 | 苹果 iPhone 11 Pro (6GB/2566B/ 全 网 通 ) 9999 
ID 山西 省 jar UR 3Ri Phone 11〈4GB/64GB/ 全 网 通 ? z J 
[s] 5 河北 省 |oPPO OPPO Reno2 BGB/128GB/ 全 网 通 ) J2999 
iml 6| 北 京 市 星 GALAXY Note 10+ 《12GB/2566B/ 全 网 通 /56 版 ) |7999 
0 7| 石 家 庄市 OPPO OPPO Reno2〔86B/1286B/ 全 网 通 ) 2999 
II IRRIS 华为 华为 Mare30〈8GB/128GB/ 全 网 通 /5G 版 /玻璃 版 7 4999 
[si 93 陕西 省 jwvivo [vivo iQ00 Pro (8GB/128GB/5G 全 网 通 3798 
a 大 连 市 loPPO OPPO Reno 10 倍 变焦 版 〔8GB/256GB/ 全 网 通 ) 4299 
器 GR vivo vivo NEX 3《〈BGB/256GB/ 全 网 通 /5G 版 ) |5698 
[=] 北京 市 [vivo [vivo NEX 3〔8GB/128GB/ 全 网 通 ) 4998 
o EZIJ | 苹果 iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ) 9599 
[s] wam [vivo iQ00 Pro〈8GB/128GB/56G 全 网 通 ) 3798 
回 asr [华为 P30 Pro (86B/1286B/ 全 网 通 ) 4968 
el | 小 米 9 (86B/25668/ 全 网 通 ) 2999 
[o EBR: Phone 11 Pro Max (6GB/64GB/ 全 网 通 ) 9599 
o 小 米 9 Pro (86B8/25668/ 全 网 通 /56 般 ) {3799 |P 
器 芝 果 iPhone 11 Pro Max (6GB/646B/ 全 网 通 ) |9699 
m | 小 米 9 Pro〈BGB/256GB/ 全 网 通 /56 版 ) 3799 
II | 华为 Mate 20 X《〈8GB/2566B/ 全 网 通 /5 版 ) _ 6199 
il OPPO R17 (8GB RMM/ 全 网 通 ) |2499 
[=] iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ) 9599 
= 

= 

[=] 

回 

[=] 

sl 

[s] 
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6.2 不 一 致 数据 转换 


不 一 致 数据 转换 主要 是 将 不 同业 务 系统 中 的 相同 类 型 的 数据 进行 统一 。 例 如 ,同一 供 
应 商 在 结算 系统 中 的 编码 是 XX0001 ,而 在 CRM( 客 户 关系 管理 ) 系 统 中 的 编码 是 YY0001， 
这 时 就 需要 将 这 两 个 业务 系统 中 的 数据 抽取 过 来 进行 统一 转换 ,转换 成 同一 个 编码 。 

A 公司 和 B 公 司 销售 的 手机 均 从 同一 个 供 货 商 手 里 采购 ,因此 ,同一 品牌 型 号 的 手机 ， 
售 价 也 应 相同 。 但 是 ,数据 表 company 中 存在 同一 品牌 型 号 的 手机 ,和 售 价 却 不 同 ,具体 如 
图 6-29 所 示 。 


苹果 iPhone 11 Pro〔6GB/64GB/ 全 网 通 ) 

($ 3RiPhone 11 Pro(66B/2566B/ 全 网 通 ) 
苹果 iPhone 11 (46B/646B/ 全 网 通 ) 

[OPPO Reno2 (86B/1286B/ 全 网 通 ) 

| 三 星 GALAXY Note 10+ (126B/2566B/ 全 网 通 /56 版 ) 
[OPPO Reno2 8GB/1286B/ 全 网 通 ) 

| 华为 Mate30 86GB/1286B/ 全 网 通 /56 版 / 玻 瑞 版) 
[Vivo iQ00 Pro(86B/1286B/56 全 网 通 ) 

[OPPO Reno 10 倍 变 售 版 “86B/2566B/ 全 网 通 ) 
[vivo NEX 3 8GB/2566B/ 全 网 通 /56 版 ) 

vivo NEX 3 (8GB/128GB/ 全 网 通 ) 

苹果 iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ) 
vivo iQ00 Pro〔86B/1286B/56 全 了 网通 ) 

华为 P30 Pro 〈8GB/128GB/ 全 网 通 ) 

小 米 9 (86B/2566B/ 全 网 通 ) 

| 苹果 iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ) 
小 米 9 Pro〈8GB/256GB/ 全 网 通 /56G 版 ) 

[ER iPhone 11 Pro Max 〔〈6GB/64GB/ 全 网 通 ) 
小 米 9 Pro 〈8GB/256GB/ 全 网 通 /5 版 ? 


| 华为 Mate 20 X〔86B/2566B/ 全 网 通 /56 版 ) 
OPPO R17 《8GB_RAM/ 全 了 网通 ) 

苹果 iPhone 11 Pro Max (6GB/646B/ 全 网 通 ) 
三 星 Galaxy 510+ (8GB RAM/ 陶 次 版 /全 网 通 ) 
| 革 果 iPhone 11 (46GB/1286B/ 全 网 通 ) 


苹果 iPhone 11 Pro〔66B/2566B/ 全 网 通 ) 
| 华为 P30 Pro 86B/1286B/ 全 网 通 ) 

| 萤 果 iPhone 11 (46B/2566B/ 全 网 通 ) 
小 米 9 Pro〔8GB/256GB/ 全 网 通 /56 版 ) 
三 星 GALAXY Note 10 (86B/2566B/ 全 网 通 ) 


图 6-29 数据 表 company 中 的 不 一 致 数据 


aooaa 


从 图 6-29 中 可 以 看 出 ,标记 的 4 条 数据 中 ,字段 brand 和 model 均 指 向 同一 品牌 和 型 
号 ,而 id 为 19 的 这 条 数据 价格 字段 CunitPrice) 与 其 他 3 条 数据 的 价格 字段 不 同 。 

下 面 通过 Kettle 工具 对 数据 表 company 进行 不 一 致 数据 的 转换 操作 , 即 通过 与 供 货 商 
提供 的 标准 价格 表 进 行 比较 ,得 出 不 一 致 数据 ,从 而 进行 修改 ,最 终 输 出 到 数据 表 company 
中 ,具体 实现 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 inconsistent ,并 添加 * 表 输入 "控件 “字段 选择 ?控件 “记录 
集 连 接 ” 控 件 “ 插 入 /更 新 ”控件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 6-30 所 示 o 


2. 配置 “ 表 输 入 ”控件 
双击 图 6-30 中 的 “ 表 输入 "控件 ,进入 “ 表 输入 "界面 ,如 图 6-31 所 示 。 


第 6 章 数据 转换 
SX inconsistent 2 
P CH D+. en BR FJ 10% ~ 
— 
e mu Ex 
FAA 
1 » s 
E 6-30 ”创建 转换 inconsistent 
B SRA = s= 
DEZE SAA 
mL a ws] 
2 EET 
[SELECT cvalues> FROM <table name> WHERE ¿conditions> y 
+ 
行 1 列 0 
允许 简易 转换 回 
Es SQL 语句 里 的 变量 回 
从 步 要 活 入 数据 本 
执行 每 一 行 ? 器 
记录 数量 限制 0 ° 


(aro |[ mam J| wao | 


图 6-31 “ 表 输 入 ”界面 


在 图 6-31 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 


数据 库 连 接 的 配置 如 图 6-32 所 示 。 


r 
E =s) 
高 级 连接 名 称 : 
m FE 
连接 池 inconsistent 
ki 连接 类 型- kj 
MS SQL Server z| HEE 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 
MonetDB transform ° 
Native Mondrian pl hani 
Neoview 3306 ° 
Netezza " 
OpenERP Server wes: 
lorade | root ° 
连接 方式 : == 
s... °. 
N Uso Resuk Siroaming Cursor 


Æ 6-32 MySQL 数据库 连接 的 配置 


ë 
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在 图 6-31 的 SQL 框 中 编写 查询 数据 表 company 中 品牌 、 型 号 不 一 致 数据 的 SQL 语 
句 ,然后 单 击 “ 预 览 " 按 钮 ,查看 数据 表 company 中 品牌 、 型 号 不 一 致 数据 是 否 成 功 从 
MySQL 数据 库 中 抽取 到 表 输 入 流 中 ,具体 如 图 6-33 和 图 6-34 所 示 。 


Pq [= = J 
EZE AA 
数据 库 连 接 [inconsistent ~ [ss] (8) (Wizard) 
e CZ 
SELECT brand. model FROM company c2 WHERE c2.id a 
NOT IN 
(SELECT cl .id FROM suppliers sl 
JOIN company cl ON sl. brand = cl.brand 
AND m = Cl 
AND s1.unitPrice=c1.unitPrice) ` 
ñ F 
f Plo 
简易 转换 回 
E SQL 语句 里 的 变量 回 
Mab zg | =] 
执行 每 - 行 ? El 
记录 数 晶 限制 0 ° 


图 6-33 编写 SQL 语句 


DR RAA 的 数据 (1 rows) 
Š brand model 
1 ** 芋 果 iphone 11 Pro Max ( 6GB/64GB/ F ) 


图 6-34 预览 数据 


从 图 6-34 中 可 以 看 出 ,数据 表 company 中 品牌 、 型 号 不 一 致 数据 已 经 成 功 从 MySQL 
数据 库 中 抽取 到 表 输 入 流 中 , 单 击 “ 关 闭 ”>“ 确 定 ” 按 钮 ,完成 “ 表 输入 ”控件 的 配置 。 需 要 注 
意 的 是 ,其 中 数据 表 suppliers 为 供应 商 出 售 手机 的 价格 清单 表 , 本 书 涉及 的 文件 会 作为 素 
材 提供 给 读者 。 


3. 配置 “ 表 输 入 2” 控 件 


双击 图 6-30 中 的 “ 表 输 入 2? 控 件 ,进入 * 表 输入 ”界面 ,如 图 6-35 所 示 。 

在 图 6-35 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 6-36 所 示 。 

在 图 6-35 的 SQL 框 中 编写 SQL 语句 ,查询 出 不 一 致 数据 在 数据 表 suppliers 中 的 全 部 
信息 ;在 “从 步骤 插入 数据 "后 的 下 拉 列 表 中 选择 “ 表 输入 ”控件 ; 勾 选 “执行 每 一 行 " 复 选 框 ， 
用 于 将 “ 表 输 入 ”控件 流 中 的 数据 放 入 SQL 语句 对 应 的 参数 位 置 ,通过 条 件 查询 与 数据 表 
suppliers 中 的 数据 进行 匹配 ,具体 配置 如 图 6-37 所 示 。 需 要 注意 的 是 ,“ 表 输入 ”控件 查询 
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= 
步 要 名 称 FEA? 

wasa eas) es ee 

(ERSAM. | 

SELECT 《valuesy FROM <table name> WHERE <conditions> y 

q r 

siras 加 
E SQL 语句 里 的 变量 回 

从 步 要 插入 数据 | =a 
执行 每 一行 7 口 

记录 数量 限制 0 ° 


图 6-35 “ 表 输 入 ”界面 


Native Mondrian 3 


Neoview 
Netezza q 
OpenERP Server mra 


ODBC 
JNDI 


区 -到 区 | 


*..... ° 
Use Result Streaming Cursor 


=-= 


图 6-36 MySQL 数据 库 连接 的 配置 


字段 的 顺序 要 与 本 控件 内 SQL 语句 的 参数 对 应 。 
在 图 6-37 中 单 击 “确定 ?按钮 ,完成 “ 表 输 入 2 控件 的 配置 。 


4. 配置 “字段 选择 ”控件 


双击 图 6-30 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 " 界 面 ,如 图 6-38 所 示 。 

在 图 6-38 中 “选择 和 修改 ”选项 卡 的 “字段 ”处 添加 “ 表 输 入 2” 控 件 流 中 的 所 有 数据 字 
段 ,并 将 字段 unitPrice 改名 成 unitPricel ,具体 如 图 6-39 所 示 。 

在 图 6-39 中 选择 “ 移 除 ?选项 卡 ,切换 到 * 移 除 ? 选 项 卡 界面 ,如 图 6-40 所 示 。 

在 图 6-40 中 添加 需要 移 除 的 字段 .这 里 添加 的 是 字段 id, 由 于 后 续 操 作 不 需要 字段 id， 


数据 清洗 
CEN 
SEZ ”去 给 入 2 
数据 库 连 接 inconsistent - [S] [a2] (Wizard) 
a Fasas.) 
SELECT + FROM suppliers WHERE brand=? and model=? = 
1 s 
431 列 49 
允许 简易 转 措 加 
E sQ 语句 里 的 变量 [PJ 
从 步 要 插入 数据 FA ` 
执行 每 一 行 ? 
记录 数量 限制 0 ° 
[Cree] Gaon) mo ] famo) 


图 6-37 编写 SQL 语句 


图 6-38 “选择 /改名 值 ? 界 面 


图 6-39 Kettle 检索 字段 


因此 在 此 进行 移 除 ,具体 如 图 6-41 所 示 。 
在 图 6-41 中 单 击 “确定 ”按钮 ,完成 “字段 选择 控件 的 配置 。 


5. 配置 “ 表 输 入 3” 控 件 
双击 图 6-30 中 的 “ 表 输 入 3” 控 件 ,进入 “ 表 输 入 "界面 ,如 图 6-42 所 示 。 
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Es 选 泽 /改名 值 = m| = 

DEER RR 
q Sei 
移 除 的 字段 : 
BE i 
= F 
Gua 


[Cre] [azo |[ msm |[ wo | 
图 6-42 “ 表 输 入 ”界面 


在 图 6-42 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 6-43 所 示 。 

在 图 6-42 的 SQL 框 中 编写 查询 与 标准 价格 表 ( 供 货 商 提供 的 价格 表 ) 中 品牌 .型 号 不 一 致 数 
据 的 SQL 语句 ,然后 单 击 “ 预 览 " 按 钮 ,查看 数据 表 company 中 品牌 ,型 号 相同 ,价格 不 同 的 不 一 致 
数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 表 输 入 流 中 ,具体 如 图 6-44 和 图 6-45 所 示 。 

从 图 6-45 中 可 以 看 出 ,数据 表 company 中 品牌 、 型 号 相同 ,价格 不 同 的 不 一 致 数据 已 经 
成 功 从 MySQL 数据 库 中 抽取 到 表 输 入 流 中 , 单 击 “ 关 闭 ” 一 “确定 ”按钮 ,完成 “ 表 输入 3” 控 


T1977 
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F] Use Result Streaming Cursor 


[SELECT id, brand. model. unitPrice FROM company c2 = 
WHERE c2.id NOT IN 

(SELECT cl .id FROM suppliers s1 

JOIN company cl ON sl brand = c1.brand 

AND sl .ncdel = cl model 

AND sl unitPrice=cl unitPrice); - 


e) , 
行 6 列 0 


图 6-44 编写 SQL 语句 


步骤 TAA 3 的 数据 (1 rows) 


[é| id brand model unitPrice 
+ 19 苹果 苹 困 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9699 
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件 的 配置 。 
6. 配置 “记录 集 连 接 ” 控 件 
双击 图 6-30 中 的 “记录 和 集 连接 ”控件 ,进入 “合并 排序 ”界面 ,如 图 6-46 所 示 。 


ë 
分 合并 排序 


图 6-46 “合并 排序 ”界面 


在 图 6-46 中 * 第 一 个 步骤 ”后 的 下 拉 列 表 中 选择 “字段 选择 ?控件 ,在 “第 二 个 步骤 ”后 的 
下 拉 列 表 中 选择 * 表 输入 3” 控 件 ,用 于 将 “字段 选择 ”控件 流 中 的 数据 与 “ 表 输 入 3” 控件 流 中 
的 数据 进行 合并 连接 ;在 “第 一 个 步骤 的 连接 字段 和 ”第 二 个 步骤 的 连接 字段 ?处 添加 连接 
字段 ,这 里 添加 的 连接 字段 是 brand、model, 用 于 将 “字段 选择 ”控件 流 中 的 字段 brand, 
model “RHA 3” 控 件 流 中 的 字段 brand, model 进行 连接 ;在 “连接 类 型 "后 的 下 拉 列 表 中 
选择 连接 类 型 ,这 里 选择 的 是 RIGHT OUTER , 即 右 外 连接 ,具体 如 图 6-47 所 示 。 


i> 合并 排序 llel = J 
DEER 记录 集 连 接 
-ME Fa = 
S— PE: 38, 3 = 
连接 类 型 : | RIGHT OUTER ~ 
第 一 个 步 要 的 连接 字 稚 第 二 个 步 村 的 连接 字 和 
£ mere EE £ 
1 brand 国 | 1 brand 国 
2 model =|| 2 model ~ 
RR 
[see] Caso ]L mo J 
J 


图 6-47 配置 “记录 集 连 接 "控件 
在 图 6-47 中 单 击 “ 确 定 ” 按 钮 ,完成 “记录 集 连接 ”控件 的 配置 。 


7. 配置 “字段 选择 2 控件 

双击 图 6-30 中 的 “字段 选择 2” 控 件 , 进 入 “选择 /改名 值 " 界 面 ,如 图 6-48 所 示 。 

在 图 6-48 中 “选择 和 修改 ”选项 卡 的 字段 名 称 处 填写 id 和 unitPricel, 用 于 在 “插入 /更 
新 "控件 中 通过 唯一 字段 id 修改 对 应 的 价格 字段 unitPricel 内 容 ,具体 如 图 6-49 所 示 。 


200 


ce 数据 清洗 

(= memen = = 
JEER 字段 选择 2 

EBAN ER ABE] | 

FR: 

f ezn BER Ke me EZZ 

2 [Ba 

包含 未 指定 的 列 , 按 名 称 排序 回 
图 6-48 “选择 /改名 值 "界面 
Et 选择 /改名 值 


EAN E TR] 
字段 : 
£ FREM 改名 成 长 度 精度 å 
1 ED 
2 unitPrice1 bd 
包含 未 指定 的 列 按 名 称 排序 加 
[?) 


图 6-49 “字段 选择 2" 控件 的 配置 
在 图 6-49 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 2” 控 件 的 配置 。 
8. 配置 “插入 /更 新 "控件 


双击 图 6-30 中 的 “插入 /更 新 "控件 ,进入 “插入 /更 新 "界面 ,如 图 6-50 所 示 。 


a 插入 /更 新 ole] s= 
DEER 插入 / 更 新 
re as -EJ] 区 中 
P * mma 
=s * = 
提交 记录 数量 100 ° 
TAEAE: E 
用 来 查询 的 关键 字 : 
larn Hae 流 里 的 字段 1 AENM [amze] 
Er 
¿[mem mm EF | ee] 
(Ouse) [ao] wao JL səs J 


图 6-50 “插入 /更 新 "界面 
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在 图 6-50 中 单 击 “新 建 ? 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 * 确 认 ” 按 钮 。MySQL 


数据 库 连 接 的 配置 如 图 6-51 所 示 。 
目 数据 库 连 接 
高 级 Eš: 
Em — 
连接 池 inconsistent 
= 连接 关 型 ; 设置 
MS SQL Server 主机 名 称 : 
MS SQL Server (Native) localhost ° 
MariaDB 7 
MaxDB (SAP DB) 数据 库 名 称 
MonetDB transform ° 
Native Mondrian aos: 
Neoview 3306 ° 
Netezza I 
OpenERP Server 用 广 名 : 
Oracle root ° 
连接 方式 : == 
...... ° 
M Use Result Streaming Cursor 
[xs |] 
[ w JÜ wa | 


图 6-51 MySQL 数据库 连接 的 配置 


单 击 图 6-50 中 目标 表 右 侧 的 “浏览 ”按钮 ,弹出 “数据 库 浏览 器 "界面 ,选择 目标 表 
company; 单 击 图 6-50 中 的 “获取 字段 ”按钮 ,用 来 指定 查询 数据 需要 的 关键 字 , 也 可 通过 手 
动 输入 ,指定 查询 数据 需要 的 关键 字 , 这 里 选择 的 是 数据 表 company 中 的 id 字段 和 输入 流 
里 的 id 字段 ; 单 击 “ 获 取 和 更 新 字段 "按钮 ,用 来 指定 需要 更 新 的 字段 ,具体 如 图 6-52 所 示 。 


加 插入 /更 新 = m 
步骤 名 称 插入 /更 新 
数据 库 连 接 [inconsistent - (ss) (F) [ward-] 
目标 楼 式 * [ass] 
目标 表 Company e [s=] 
提交 记录 数量 100 ° 
不 Hh 和 5 作风 更 新 : 回 
用 来 查询 的 关键 字 : 
E= 比较 符 流 里 的 字段 1 流 里 的 字段 2 [ame] 
1 id = id 
更 新 字段: 
ijan a == EE 
1 unitprice unitPrice1 Y (ssm) 
- m es 


6-52 “插入 /更 新 "控件 的 配置 


F 
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在 图 6-52 中 单 击 “ 确 定 ” 按 钮 ,完成 “插入 /更 新 ”控件 的 配置 。 
9. 运行 转换 inconsistent 


单 击 转换 工作 区 顶部 的 区 按钮 ,运行 创建 的 转换 inconsistent, 实 现 将 数据 表 company 
中 品牌 .型 号 相同 ,价格 不 同 的 不 一 致 数据 修改 成 品牌 .型 号 .价格 均 相 同 的 一 致 数据 ,具体 
如 图 6-53 所 示 。 


Z inconsistent 52 
>- H Tl. p y XQJA E 100% ~ 
P ° = | 
(E E E3 
JAA JAA 2 FaR š 
。 nooo 
= 记录 集 连 接 字段 先 择 2 插入 / 更 新 
EAA z 
4 » 
ZX 
Ë) B= [O 执行 历史 [E= SEREN t+8888| [E Metrics| dp Preview data] 
® 
£ SEEM AAMA È 5 @A Gh 更 新 拒绝 ， 错误 激活 时 间 A 
1 WAA 0 0 £ 1 0 0 0 0 已 完成 0.0s 
2 表 绽 入 2 0 £ z T 0 0 0 0 已 完成 0.2s 
3 WAA? 0 0 z 1 0 0 0 0 已 完成 0.0s 
4 ”字段 选择 0 :| 0 0 0 0 0 已 完成 02s 
5 。 记录 集 连 接 0 2 1 0 0 0 0 0 已 完成 0.5s 
6 ”字段 选择 2 0 & 1 0 0 0 0 0 已 完成 0.5s 
7 插入 /更 新 0 1 1 1 0 工 0 0 已 完成 0.5s > 
| 


图 6-53 ”运行 转换 inconsistent 


从 图 6-53 中 执行 结果 的 “步骤 度量 ”可 以 看 出 ,“ 表 输入 ”控件 输入 1 条 数据 并 写 入 该 控 
件 ;* 表 输入 2” 控件 读 取 * 表 输入 1 控件 的 1 条 数据 ,作为 “ 表 输 入 2” 控 件 的 输入 ,并 写 入 该 
控件 ;“ 表 输入 3” 控 件 输入 1 条 数据 并 写 人 该 控件 六 字段 选择 "控件 从 * 表 输入 2" 控 件 中 读 
取 1 条 数据 并 写 和 该 控件 ;* 记 录 集 连接 ”控件 从 “字段 选择 ”和 “ 表 输 入 3 控件 中 各 读 取 1 
条 数据 ,并 将 合并 后 的 1 条 数据 写 人 该 控件 六 字段 选择 2 控件 从 “记录 集 连 接 ” 控 件 中 读 取 
1 条 数据 并 写 人 该 控件 ;* 插 入 /更 新 ”控件 读 取 * 字 段 选择 2 控件 的 1 条 数据 ,作为 “插入 /更 
新 ”控件 的 输入 并 写 人 该 控件 完成 对 数据 库 1 条 数据 的 更 新 操作 。 


10. 查看 数据 表 company 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 company 是 否 已 成 功 将 数据 表 company 中 品牌 .型 号 
相同 ,价格 不 同 的 数据 修改 成 品牌 、 型 号 ,价格 均 相同 的 数据 ,查看 结果 如 图 6-54 所 示 ( 只 展 
示 部 分 数据 )。 

从 图 6-54 中 可 以 看 出 ,数据 表 company 中 字段 brand 为 “苹果 ”model 为 “苹果 iPhone 
11 Pro Max (6GB/64GB/ 全 网 通 )” 的 unitPrice 均 为 9599, 说 明成 功 实现 了 将 数据 表 
company 中 品牌 、 型 号 相同 ,价格 不 同 的 数据 修改 成 品牌 、 型 号 、 价 格 均 相 同 的 数据 。 
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华为 nova 5 Pro (8GB/128GB/ 全 网 通 ) 
3ESRiPhone 11 Pro〔6GB/64GB/ 全 网 通 ) 

苹果 iPhone 11 Pro(66B/2566B/ 全 网 通 ) 

苹果 iPhone 11 (46GB/64GB/ 全 了 网通) 

OPPO Reno2〔86B/1286B/ 全 网 通 ) 

三 星 GALAXY Note 10+ (126B/2566B/ 全 网 通 /56 版 ) 
|oPPO Reno2 (86B/1286B/ 全 网 通 ) 

华为 Mate30〔86B/1286B/ 全 网 通 /56 版 / 玻 瑞 版 ) 
vivo iQ00 Pro〔86B/1286B/56 全 网 通 ) 

OPPO Reno 10 倍 变 售 版 《86B/2566B/ 全 网 通 ) 


F559 


vivo NEX 3〔86B/2566B/ 全 网 通 /56 版 ) 

vivo NEX 3 《86B/1286B/ 全 网 通 ) 

苹果 iPhone 11 Pro Max (66B/646B/ 全 网 通 ) 

vivo iQ00 Pro (86B/1286B/56 全 网 通 ) 

华为 P30 Pro〈8GB/128GB/ 全 网 通 ) 

小 米 9 86GB/2566B/ 全 了 网通) 

四 川 省 苹果 iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ) 

大 同市 小 米 9 Pro〔86B/2566B/ 全 网 通 /56 版 ) 

重庆 市 苹果 iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ) 

陕西 省 小 米 9 Pro〔86B/2566B/ 全 网 通 /56 版 ) 

上 海 市 华为 Mare 20 X86B/2566B/ 全 网 通 /56 版 ) 

哈 尔 法 市 OPPO R17 (8GB RAM/ 全 网 通 ) 

深圳 市 革 果 iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ) 

北京 市 三 星 Galaxy S10+ (8GB RMM/ 陶 资 版 /全 网 通 ) 

河北 省 | 苹果 iPhone 11 (46B/1286B/ 全 网 通 ) 

西安 市 苹果 iPhone 11 Pro〔66B/2566B/ 全 网 通 ) 

太原 市 华为 P30 Pro〔86B/1286B/ 全 网 通 ) 

浙江 省 苹果 iPhone 11 (46B/2566B/ 全 网 通 ) 

29| 天 津 市 ”小米 ”| 小 米 9 Pro (8GB/256GB/ 全 网 通 /5@ 版 ) — 99 
天 津 市 三 星 GALAXY Note 10〈8GB/256GB/ 全 网 通 ) 6599 


III 


' 


回 
= 
= 
= 
B. 
[el 
oa 
[a] 
[ell 
= 
ol 
P: 
[o 
= 
m 
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回 
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图 6-54 数据 表 company 


6.3 数据 粒度 的 转换 


业务 系统 一 般 存 储 非常 明细 的 数据 ,而 数据 仓库 中 数据 是 用 来 分 析 的 ,不 需要 非常 明细 
的 数据 。 一 般 情况 下 会 将 业务 系统 数据 按照 数据 仓库 粒度 进行 聚合 ,这 个 过 程 被 称 为 数据 
粒度 的 转换 。 例 如 ,将 城市 转换 成 省 份 或 者 直辖 市 。 

A 公司 的 日 手机 销售 情况 中 的 销售 区 域 是 市 级 ,而 B 公司 的 日 手机 销售 情况 中 的 销售 
区 域 是 省 级 ,A 公司 和 B 公司 的 日 手机 销售 情况 合并 后 存储 在 数据 表 company 中 ,通过 仔 
细 观 察 数据 表 company 中 字段 为 salesArea 的 一 列 ,发现 该 列 既 包含 市 级 ,也 包含 省 级 。 数 
据 表 company 中 的 部 分 数据 内 容 如 图 6-55 所 示 。 

下 面 通过 Kettle 工具 对 数据 表 company 进行 数据 粒度 的 转换 操作 ,即将 数据 表 
company 中 字段 为 salesArea 的 数据 都 统一 成 省 份 级 ,并 存储 到 新 数据 表 company_new 中 ， 
具体 步 又 如 下 。 


1. 打开 Kettle 工具 .创建 转换 


使 用 Kettle 工具 创建 转换 granularity, 并 添加 “ 表 输 入 ”控件 “字段 选择 ”控件 “排序 
记录 ”控件 “记录 和 集 连 接 ” 控 件 “ 过 滤 记 录 ” 控 件 “ 空 操作 ”控件 “ 表 输 出 ”控件 以 及 Hop 跳 
连接 线 , 具 体 效果 如 图 6-56 所 示 。 


2. 配置 “ 表 输 入 "控件 
双击 图 6-56 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 6-57 所 示 。 


华为 nova 5 Pro〔86B/1286GB/ 全 网 通 ) 


苹果 iPhone 11 Pro (66B/646B/ 全 网 通 ) 


苹果 iPhone 11 Pro(66B/2566B/ 全 网 通 ) 


苹果 iPhone 11 (46B/646B/ 全 网 通 ) 


[OPPO Reno2 〈8GB/128GB/ 全 网 通 ) 


三 星 GALAXY Note 10+ (126B/2566B/ 全 网 通 /56 版 ) 


|OPPO Reno2〔86B/1286B/ 全 网通) 


华为 Mare30〈8GB/128GB/ 全 网 通 /5G 版 /玻璃 版 7 


[vivo iQ00 Pro〔86B/1286B/56 全 网通 ) 


[OPPO Reno 10 佑 变 集 版 “86B/2566B/ 全 网 通 ) 


[Vivo NEX 3〔86B/256GB/ 全 网 通 /56 版 ) 


[vivo NEX 3〔86B/1286B/ 全 网 通 ) 


苹果 iPhone 11 Pro Max (66GB/64GB/ 全 网 通 ) 


[vivo iQ00 Pro〔86B/128GB/56 全 网 通 ) 


华为 P30 Pro 86B/1286B/ 全 网 通 ) 


小 米 9 86B/2566B/ 全 网 通 ) 


苹果 iPhone 11 Pro Max (66B/646B/ 全 网 通 ) 


小 米 9 Pro 86B/2566B/ 全 网 通 /56 版 ) 


苹果 iPhone 11 Pro Max (66B/646B/ 全 了 网通) 


小 米 9 Pro〔86B/2566B/ 全 网 通 /56 版 ) 


图 6-55 数据 表 company 


9° Sta) 


(ABTB — 字段 选择 3 


@ Es 


DEHE (什么 也 不 做 ) 2 。 字段 选择 4 


天 输出 2 


图 6-56 ”创建 转换 granularity 


SQL 


步 要 名 称 SASA 


SELECT <values> FROM <table name> WHERE ¿<conditions> 


irase 回 
E ea al 
Bubas, mas | B: 
的 5 每 - 行 ? El 
记录 数量 限制 0 ° 


图 6-57 “ 表 输 入 ”界面 
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在 图 6-57 中 单 击 “新 建 ? 按 钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “确认 ”按钮 。MySQL 
数据 库 连 接 的 配置 如 图 6-58 所 示 。 


| 


*..... ° 
Use Result Streaming Cursor 


Cm J| mw | 


图 6-58 MySQL 数据 库 连接 的 配置 


在 图 6-57 的 SQL 框 中 编写 获取 数据 表 company 中 所 有 数据 的 SQL 语句 ,然后 单 击 
“预览 ”按钮 ,查看 数据 表 company 中 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 表 输 入 流 
中 ,具体 如 图 6-59 和 图 6-60 所 示 , 


B, SAA = 
DEZE WSA 
BREE [granularity = (FE) (Wizard) 
< EE 
= * FROM company 下 
i + 
行 1 列 0 
reame 加 
ma so 语句 里 的 变量 回 
Mappia mag | z 
执行 每 - 行 ? 口 
记录 数量 限制 0 ° 


图 6-59 编写 SQL 语句 


从 图 6-60 中 可 以 看 出 ,数据 表 company 中 的 数据 已 经 成 功 从 MySQL 数据 库 中 抽取 到 
表 输 入 流 中 , 单 击 “ 关 闭 ” 盖 确定 ?按钮 ,完成 “ 表 输入 ”控件 的 配置 。 


3. 配置 “字段 选择 ”控件 
双击 图 6-56 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ”界面 ,如 图 6-61 所 示 。 


B masse ene) 
DE BRA 的 数据 (40 rows) 
É id salesArea brand model unitPrice number ^ 
1 1 北京 市 华为 华为 nova 5 Pro ( 8GB/128GB/ 全 网 通 ) 2999 31 
2 2 北京 市 == iPhone 11 Pro ( 6GB/64GB/ 全 网 通 ) 8699 50 
š 3 上 海 市 == 苹果 iPhone 11 Pro ( 6GB/256GB/ 全 网 通 ) 9999 20 
4 4 山西 省 == iPhone 11 ( 4GB/64GB/ 全 网 通 ) 5499 20 
8 5 ”河北 省 OPO OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 27 
6 6 北京 市 == 三 星 GALAXY Note 10+ ( 12GB/256GB/ 全 网 通 /5G 版 ) 7999 s 
7 7 石家庄 市 。 OPPO OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 20 
8 8 RÈIS 华为 华为 Mate30 ( 86B/128GB/ 全 网 通 /5G 版 /琉璃 版 ) 4999 34 
$ RAS vivo vivo iQOO Pro (8GB/128GB/5G 全 网 通 ) 3798 38 
10 10 Ab OPO OPPO Reno 10 信 变焦 版 (8GB/256GB/ 全 网 通 ) 4299 35 
11 11 #8$h vivo vivo NEX 3 ( 8GB/256GB/ 全 网 通 /5G 版 ) 5698 26 
12 12 ig vivo vivo NEX 3 ( 8GB/128GB/ 全 网 通 ) 4998 26 
B 13 天 市 =e 苹果 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 18 
14 14 青 S 市 vivo vivo iQOO Pro ( 8GB/128GB/5G 全 网 通 ) 3798 25 
15 15 西安 市 Eee] 华为 P30 Pro ( 8GB/128GB/ 全 网 通 ) 4988 30 
16 16 重庆 市 小 米 小 六 9 ( 8GB/256GB/ 全 网 通 ) 2999 26 
7 17 mS == 3ESBiPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 35 
18 18 大 同市 小 米 小 米 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 22 
19 19 重庆 市 == 苹果 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 38 
2 20 RAS 小 米 小 米 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 39 ~ 


图 6-60 预览 数据 


DEER ”字段 选择 
选择 和 禾 改 、、 移 除 | 元 数 迫 | 
字段 : 
£ | 字段 名 称 改名 成 KE 精度 EEJ 


[ wo ] 


在 图 6-61 中 “选择 和 修改 ”选项 卡 的 “字段 ”处 手动 添加 所 需 字 段 , 这 里 添加 字段 id 和 
salesArea, 具 体 如 图 6-62 所 示 。 


图 6-61 “选择 /改名 值 "界面 


在 图 6-62 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 


4. 配置 “排序 记录 ”控件 


双击 图 6-56 中 的 “排序 记录 ”控件 ,进入 “排序 记录 ”界面 ,如 图 6-63 所 示 。 


在 图 6-63 的 “字段 " 框 中 添加 字段 salesArea, 以 该 字段 为 基础 对 整体 数据 进行 升序 排 


序 , 具 体 如 图 6-64 所 示 。 


在 图 6-64 中 单 击 “ 确 定 ” 按 钮 ,完成 “排序 记录 ”控件 的 配置 。 
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DEER SEE 


图 6-62 添加 所 需 字 段 


DEER 排序 记录 


排序 目录 %%javaio.tmpdir%% 


临时 文件 前 缀 out 


排序 组 存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 


未 使 用 内 存 限 值 (%) 


ER O 
仅仅 传递 非 重复 的 记录 ? (仅仅 校 验 关键 字 ) 回 
Fa: 


É FEER 。 升序 ANSBE 。 Sort based on current locale? — Collator Strength  Presorted? 
1 


[azo | wo ][ anse] 


图 6-63 “排序 记录 ”界面 


z 排序 记录 [ET 可 | = 


字段 : 


PEER 排序 记录 
排序 目录 %96javaiotmpdir%% MEOS 
SE out 
排序 稻 存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 ° 
未 使 用 内 存 限 值 (%) © 
Eae 令 回 ° 
仅仅 传递 非 重复 的 记录 ? (仅仅 校 验 关键 字 ) M 


1 salesArea s 理 否 0 


É FER AF SSortbasedoncurrentlocale? CollatorStrength Presored? 


[Os] [azo JL wo | anse | 


图 6-64 配置 “排序 记录 ”控件 


208 数据 清洗 


5. 配置 “ 表 输 入 2” 控 件 
双击 图 6-56 中 的 “ 表 输 入 2” 控件, 进入 “ 表 输 入 ”界面 ,如 图 6-65 所 示 。 


EL SA 
DEZE MAA 
| O e Be e 
ia Creo 
SELECT 《valuesy FROM <table name> WHERE 《COnditionsy dy 
“ + 


图 6-65 “ 表 输 入 "界面 


在 图 6-65 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 6-66 所 示 。 


连接 名 称 : 
granularity 


*..... ° 
Use Result Streaming Cursor 


Cm |( ms J 


图 6-66 MySQL 数据 库 连 接 的 配置 


在 图 6-65 的 SQL 框 中 编写 SQL 语句 ,用 于 查询 city 数据 表 ( 注 : 该 表 须 提前 创建 , 读 
者 执行 本 书 提供 的 data. sql 脚本 文件 可 生成 city 数据 表 ) 中 字段 city 和 pid 的 数据 ,用 于 与 
数据 表 company 中 的 字段 salesArea 进行 合并 连接 ,然后 单 击 “ 预 览 ” 按 钮 ,查看 city 数据 表 
中 的 字段 city 和 pid 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 表 输 入 流 中 ,具体 如 图 6-67 
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和 图 6-68 所 示 。 


Pq t= = 
步 要 名 称 ” 表 输入 2 
数据库 连接 [granularity 了 | [Ws [WE] [Wizara] 
s Er 
ISELECT city, pid FROM city FP 
- , 
行 1 列 0 
siamea Fl 
EA SQL 语句 里 的 变量 Fl 
从 步 要 插入 数据 
执行 每 一 行 ? 加 
记录 数量 限制 0 ° 
(Oner) [aso | mso |[ mac | 
图 6-67 编写 SQL 语句 
国 mamap Lera] 
DR RAA 的 数据 (391 rows) 
£ aty pid = 
1 北京 市 1 国 
2 Ft 2 
3 上海 市 3 
4 Rat 4 
5 Reb 5 
6 mut 5 
7 Em 5 
8 rb 5 
9 sn 5 
10 光州 5 Ë 
图 6-68 预览 数据 


从 图 6-68 中 可 以 看 出 ,数据 表 city 中 的 字段 city 和 pid 的 数据 已 成 功 从 MySQL 数据 
库 中 抽取 到 表 输 入 流 中 , 单 击 " 关 闭 ” 一 “确定 ”按钮 ,完成 “ 表 输 入 2 控件 的 配置 。 


6. 配置 “排序 记录 2” 控 件 


双击 图 6-56 中 的 “排序 记录 2” 控 件 ,进入 “排序 记录 ”界面 ,具体 如 图 6-69 所 示 。 

在 图 6-69 的 “字段 ” 框 中 添加 字段 city, 以 该 字段 为 基础 对 整体 数据 进行 升序 排序 , 具 
体 如 图 6-70 所 示 。 

在 图 6-70 中 单 击 “ 确 定 ” 按 钮 ,完成 “排序 记录 2” 控 件 的 配置 。 


7. MERRER” 


双击 图 6-56 中 的 “记录 和 集 连 接 ” 控 件 ,进入 “合并 排序 ”界面 ,如 图 6-71 所 示 。 
在 图 6-71 的 “第 一 个 步骤 ”后 的 下 拉 列 表 中 选择 “排序 记录 ”控件 ,在 “第 二 个 步骤 ”后 的 
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而 
0 

回 
K 


PEER 排序 记录 2 


排序 目录 %9gjavaiotmpdir%% ° La(B)- | 
文件 前 要 out 
排序 缕 存 大 小 (内 存 里 存放 的 记录 烧 ) 1000000 e 
未 使 用 内 存 限 值 56) ° 
nj 文件 令 回 ° 
仅仅 传 北非 重 复 的 记录 ? (仅仅 校 验 关 键 字 ) Fl 
字段: 
[£ £ AF AU NSSR8S — Sort based on current locale? — Collator Strength 。 Presorted? 
pi 


图 6-69 “排序 记录 ”界面 


iz 排序 记录 z 
DESG “排序 记录 2 
排序 目录 %9gjavajiotmpdir%% ° [us] 
BEAMS “out 
ERFA NPETE 1000000 ° 
未 使 用 内 存 限 值 (%) ° 
Eaim OP ° 
仅仅 传递 非 重复 的 记录 ? (仅仅 校 验 关 键 字 ) E 
R: 
[£ | 字段 名 称 。 升序 ANEA 。 Sort based on currentlocale?  Collator Strength — Presorted? 
1 cy 是 š = 0 = 


图 6-71 “合并 排序 "界面 
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下 拉 列 表 中 选择 “排序 记录 2” 控 件 ;在 “第 一 个 步骤 的 连接 字段 ”" 和 “第 二 个 步骤 的 连接 字 
段 ” 处 分 别 添加 连接 字段 ,这 里 添加 的 连接 字段 分 别 是 salesArea 和 city, 将 “排序 记录 ”控件 
流 中 的 数据 与 “排序 记录 2” 控 件 流 中 的 数据 进行 合并 连接 ;在 “连接 类 型 "后 的 下 拉 列 表 中 
选择 连接 类 型 ,这 里 选择 的 是 LEFT OUTER. 即 左 外 连接 ,具体 如 图 6-72 所 示 。 


全 合并 排序 lele] x | 


图 6-72 ”配置 记录 集 连 接 "控件 
在 图 6-72 中 单 击 “ 确 定 ” 按 钮 ,完成 “记录 集 连 接 " 控 件 的 配置 。 
8. 配置 “字段 选择 2” 控 件 
双击 图 6-56 中 的 “字段 选择 2” 控 件 ,进入 “选择 /改名 值 " 界 面 ,如 图 6-73 所 示 。 
E EREE 


l 


图 6-73 “选择 /改名 值 "界面 


在 图 6-73 中 “选择 和 修改 ”选项 卡 的 “字段 ”处 手动 添加 所 需 字 段 ,这 里 添加 字段 id .pid 
和 salesArea, 具 体 如 图 6-74 所 示 。 
在 图 6-74 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 2” 控 件 的 配置 。 


9. 配置 “排序 记录 3” 控 件 


双击 图 6-56 中 的 “排序 记录 3” 控 件 , 进 入 “排序 记录 ”界面 ,具体 如 图 6-75 所 示 。 
在 图 6-75 的 “字段 ” 框 中 添加 字段 pid, 以 该 字段 为 基础 对 整体 数据 进行 升序 排序 ,具体 
如 图 6-76 所 示 o 


在 图 6-76 中 单 击 “确定 ?按钮 ,完成 “排序 记录 3” 控 件 的 配置 。 
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图 6-74 “字段 选择 2” 控 件 的 配置 


1 排序 记录 
DEER 排序 记录 3 
排序 目录 %%java.io.tmpdir%% ° DUB)» | 
ENS out 
排序 组 存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 ° 
未 使 用 内 存 限 值 (%) ° 
夺 给 临时 文件 ? 令 回 ° 
仅仅 传递 非 重复 的 记录 ? (仅仅 校 验 关键 字 ) 回 
字段 : 


|f FBAR AF ANSES — Sort based on current locale? — Collator Strength — Presorted? 


1 


[azo |[ wo |[ anse | 


图 6-75 “排序 记录 "界面 


z 排序 记录 
SEER 排序 记录 3 
排序 目录 %%java.io.tmpdir%% ° [usw] 
临时 文件 前 加 out 
排序 绥 存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 ° 
未 使 用 内 存 限 值 96) ° 
ES 文件 On ° 
仅仅 传递 非 重复 的 记录 ? (仅仅 检验 关键 字 ) 回 
字段 : 
[£ ee 。 升序 大 小 与 敏感 Sort based on current locale? — Collator Strength  Presorted? 
1 pid a z = 0 = 


[Ore] [Cazo |[ wo ] amen] 


图 6-76 配置 “排序 记录 IEH 


第 6 章 数据 转换 


10. 配置 “ 表 输 入 3” 控 件 
双击 图 6-56 中 的 “ 表 输 入 3 控件 ,进入 “ 表 输 入 ”界面 ,如 图 6-77 所 示 。 


Fg = 
DEZE SAA 
m, — [s=] Be e 
g FRSE.. | 
SELECT 《Valuesy FROM <table name> WHERE <conditions> N 
“ + 


图 6-77 “ 表 输 入 "界面 


在 图 6-77 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 " 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 6-78 所 示 。 


连接 名 称 : 
granularity 


wese 9 
Use Result Streaming Cursor 


Cm J| ms | 
6-78 MySQL 数据 库 连 接 的 配置 


在 图 6-77 的 SQL 框 中 编写 SQL. 用 于 获取 数据 表 provincial 中 字段 为 pid 和 
Provincial 的 数据 ,后 续 用 于 与 排序 记录 ”控件 流 中 的 字段 数据 进行 合并 连接 ,然后 单 击 
“预览 ”按钮 ,查看 数据 表 provincial 中 字段 为 pid 和 Provincial 的 数据 是 否 成 功 从 MySQL 
数据 库 中 抽取 到 表 输 入 流 中 ,具体 如 图 6-79 和 图 6-80 所 示 。 
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REZIN ela] x 


步 要 名 称 ” 表 输入 3 
kuki ~ [s=] (amma) [wees] 


SQL 


SELECT a 
pid 

. Provincial m 

FROM provincial ʻi 


行 1 列 0 


[no J mam ][ mao | 
图 6-79 编写 SQL 语句 


ES es 


š 
: 
L 
Ë 
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EEC I 2 
s 
Li 


| xao ]| sesu ] 
图 6-80 预览 数据 


从 图 6-80 中 可 以 看 出 ,数据 表 provincial 中 的 字段 Provincial 和 pid 的 数据 已 经 成 功 从 
MySQL 数据 库 中 抽取 到 “ 表 输 入 3 控件 的 输入 流 中 , 单 击 “关闭 ”一 “确定 ”按钮 ,完成 “ 表 输 
入 3” 控 件 的 配置 。 


11. 配置 “排序 记录 4” 控 件 


双击 图 6-56 中 的 “排序 记录 4” 控 件 , 进 入 “排序 记录 ”界面 ,具体 如 图 6-81 所 示 。 

在 图 6-81 的 “字段 ” 框 中 添加 字段 pid, 以 该 字段 为 基础 对 整体 数据 进行 升序 排序 ,具体 
如 图 6-82 所 示 。 

在 图 6-82 中 单 击 “ 确 定 ” 按 钮 ,完成 “排序 记录 4” 控 件 的 配置 。 
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z 排序 记录 =| 
SEER “排序 记录 3 
排序 目录 %%java.io.tmpdir%% ° Exsej-] 
文件 前 要 [out 
排序 组 存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 © 
未 使 用 内 存 限 值 (%) ° 
Eam OP ° 
仅仅 传 北非 重复 的 记录 ? (仅仅 检验 关键 字 ) Fl 
字段 : 
Š Ef AF ANSES Sort based on current locale? — Collator Strength Presorted? | 
T 


图 6-81 “排序 记录 ”界面 


i 排序 记录 lele] 
DEER 排序 记录 4 
排序 目录 %%javajio.tmpdir%% ° E] 
GULAS out 
排序 缓存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 ° 
未 使 用 内 存 限 值 (%) ° 
ERE O ° 


仅仅 传递 非 重复 的 记录 ? (仅仅 校 验 关键 字 ) 回 


图 6-82 配置 “排序 记录 4” 控 件 


12. 配置 “记录 集 连 接 2 控件 
双击 图 6-56 中 的 “记录 集 连 接 2” 控 件 ,进入 “合并 排序 ”界面 ,如 图 6-83 所 示 。 


图 6-83 “合并 排序 ”界面 
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在 图 6-83 中 * 第 一 个 步骤 : ”后 的 下 拉 列 表 中 选择 “排序 记录 3 控件 ,在 “第 二 个 步骤 :” 
后 的 下 拉 列 表 中 选择 “排序 记录 4 控件; 在 “第 一 个 步骤 的 连接 字段 和 * 第 二 个 步骤 的 连接 
字段 ”处 分 别 添加 连接 字段 ,这 里 添加 的 连接 字段 分 别 是 pid 和 pid; 在 “连接 类 型 "后 的 下 拉 
列表 中 选择 连接 类 型 ,这 里 选择 的 是 LEFT OUTER, 即 左 外 连接 ,具体 如 图 6-84 所 示 。 


图 6-84 配置 “记录 集 连 接 2" 控 件 


在 图 6-84 中 单 击 “ 确 定 "按钮 ,完成 “记录 集 连 接 2” 控 件 的 配置 。 
13. 配置 “过 滤 记录 ”控件 
双击 图 6-56 中 的 “过 滤 记 录 ” 控 件 , 进 入 “过 滤 记 录 ” 界 面 ,如 图 6-85 所 示 。 


B 过 小 记录 A 


DEER tran 
发 送 true 数 据 给 步 枝 : = 
发 送 false 数 据 给 步 要: - 
条 件 : 


+ 
[F rield> rieldy 
[value 
g”) . 


图 6-85 “过 滤 记 录 ” 界 面 


在 图 6-85 中 的 条件? 处 设置 过 滤 的 条 件 ,将 字段 为 Provincial 中 值 为 null 的 数据 过 滤 
掉 , 具 体 如 图 6-86 所 示 。 

在 图 6-86 中 “发 送 true 数据 给 步 又: ”后 的 下 拉 列 表 中 选择 “ 空 操作 (什么 也 不 做 )”, 将 
Provincial 字段 值 不 为 null 的 数据 放 在 “ 空 操作 (什么 也 不 做 )" 控 件 中 ;在 “发 送 false 数据 
给 步骤: ”后 的 下 拉 列 表 中 选择 “ 空 操作 (什么 也 不 做 )2”, 将 Provincial 字段 值 为 null 的 数 
据 放 在 “ 空 操作 (什么 也 不 做 )2” 控 件 中 ,具体 如 图 6-87 所 示 。 

在 图 6-87 中 单 击 “ 确 定 ” 按 钮 ,完成 “过 滤 记 录 ” 控 件 的 配置 。 


14. 配置 “字段 选择 3” 控 件 
双击 图 6-56 中 的 “字段 选择 3” 控 件 ,进入 “选择 /改名 值 ”界面 ,如 图 6-88 所 示 。 
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kk 
DEER phat 
发 送 true 数 据 给 步 村 : ` 
发 送 false 数 据 给 步 棒 : ` 
Sk 
NOT 十 “ 
Frovincial] [IS NULL E ] m 
EI - 
° [ wo J 
图 6-86 设置 过 滤 条 件 
E mor 
DEER MSR 
Bitru BRADE [F HARE g 
SixtalseBt828: EE [SE (什么 也 不 鲍 ) 2 - 
条 件 : 
NOT 十 =l 
Provincial] [S NULL F ] 国 
F I - 


图 6-87 配置 “发 送 true/false 数据 给 相关 步骤 ” 


= 


[EE 
字段 
£ FREE 。 改名 成 Ke 精度 
包含 未 指定 的 列 按 名 称 排序 回 
— 


图 6-88 “选择 /改名 值 " 界 面 
在 图 6-88 的 “选择 和 修改 "选项 卡 的 “字段 ”处 手动 添加 所 需 字 段 , 这 里 添加 字段 id 和 
Provincial, 用 于 后 续 进 行 输出 ,具体 如 图 6-89 所 示 。 
在 图 6-89 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 3” 控 件 的 配置 。 


15. 配置 “ 表 输 出 ”控件 


双击 图 6-56 中 的 “ 表 输出 "控件 ,进入 “ 表 输出 ”界面 ,具体 如 图 6-90 所 示 。 

在 图 6-90 中 单 击 “ 新 建 "按钮 ,配置 数据 库 连接 (所 连接 的 数据 库 transform 须 提 前 创 
建 ,这 里 不 蒙 述 ) ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数据 库 连接 的 配置 如 图 6-91 所 示 o 

单 击 图 6-90 中 目标 表 右 侧 的 “浏览 ?按钮 ,指定 输出 目标 表 , 即 数据 表 temporary ZK 
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图 6-89 “字段 选择 3" 控 件 的 配置 


局 表态 出 


[ o | 


beaj 


图 6-90 


“ 表 输 出 "界面 


连接 名 称 : 


granularity 
连接 类 型 : 


MS SQL Server (Native) 
MariaDB 

MaxDB (SAP DB) 
MonetDB 


Neoview 

Netezza 

OpenERP Server 

Orade = 


[Eap 二] ses J 


SSG Ei 


Use Result Streaming Cursor 


[Ls J 


Cm J 


图 6-91 MySQL 数据 库 连 接 的 配置 
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须 提前 创建 ,这 里 不 演示 ); 勾 选 “指定 数据 库 字 有 段 " 复 选 框 ,用 于 将 数据 表 temporary 的 字段 
与 “字段 选择 3” 控 件 输出 流 中 的 字段 进行 匹配 ,如 图 6-92 所 示 。 


EE] 


EZR Fet 


So -lma oe] [tzac -) 
目标 模式 


t= [temporar] 


° 
提交 记录 数量 1000 


(Onee) 


图 6-92 ”指定 输出 目标 表 和 勾 选 “指定 数据 库 字 段 " 复 选 框 
单 击 图 6-92 中 的 “数据 库 字 段 " 选 项 卡 ,具体 如 图 6-93 所 示 。 


EE] [= 
SEZ meN 
wasan assis EC 
目标 模式 © [u] 
目标 表 temporary © [se] 
提交 记录 数量 1000 ° 
ass 回 
忽略 插入 错误 O 
指定 数据 库 字 段 团 
DER [BEERA 
插入 的 字段: 
£ =a are [anza] 
(Onee) [ao |[ wwo J| sa | 


图 6-93 “数据 库 字 段 "选项 卡 


在 图 6-93 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,具体 如 图 6-94 所 示 。 
在 图 6-94 中 依次 选中 “ 源 字段 "选项 中 的 字段 和 “目标 字段 "中 对 应 的 字段 ,再 单 击 Add 
按钮 ,将 一 对 映射 字段 添加 至 “映射 " 框 中 , 若 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 相 
同 , 则 可 以 单 击 “ 猜 一 猿 "按钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 6-95 所 示 。 
在 图 6-95 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 源 字段 ”与 “目标 字段 ”的 映射 匹配 。“ 表 输出 ”控件 
配置 的 效果 图 如 图 6-96 所 示 。 
在 图 6-96 中 单 击 “确定 ?按钮 ,完成 “ 表 输 出 ?控件 的 配置 。 


š 


220: 数据 清洗 


图 6-94 “映射 匹配 "对话 框 


PK 映射 四 本 El 
源 字 段 目标 字段 映射 

id --> id 

一 | provincial --> salesArea 
自动 选择 目标 


隐 菩 已 经 匹配 的 源 字 段 V 


Rees O [sea 
目标 表 temporary © [We 
提交 记录 数量 “1000 ° 
ana 回 
DRAE O 
指定 数据 库 字 银团 
=m mesapi 
MADEE 
BEZ AFR ü (ERER) 
3 lid id 
LOuen] [ao ][ wao J se J 


图 6-96 “ 表 输 出 ”控件 配置 的 效果 图 


16. 配置 “字段 选择 4” 控 件 


双击 图 6-56 中 的 “字段 选择 4” 控件, 进入 “选择 /改名 值 * 界 面 ,如 图 6-97 所 示 。 

在 图 6-97 的 “选择 和 修改 ”选项 卡 的 “字段 ”处 手动 添加 所 需 字 段 , 这 里 添加 字段 id 和 
salesArea, 用 于 后 续 进 行 输 出 ,具体 如 图 6-98 所 示 。 

在 图 6-98 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 4” 控 件 的 配置 。 
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17. 配置 “ 表 输出 2” 控 件 


= EREE 
SEER FaR 
EE 
*@: 
S | 字段 名 称 BZR EA 精度 [mama] 
[ms] 
包 会 未 指证 的 列 按 名 称 排序 回 
2 [ao || wao | 
图 6-97 “选择 /改名 值 > 界面 
B 选择 /改名 值 ==] = 
步 村 名 称 “ 闻 段 选择 4 
TERMES". EB | 元 8 迫 | 
*@: 
[£ | 字段 名 称 改名 成 长 度 精度 [的 字段] 
1 id ES 
2 salesArea 
包 全 未 指定 的 列 按 名 称 排序 加 
图 6-98 “字段 选择 4” 控 件 的 配置 


双击 图 6-56 中 的 “ 表 输 出 2 控件 ,进入 * 表 输出 界面 ,具体 如 图 6-99 所 示 。 


EEZ [= = ) 
SEER EEH? 
s ~ (a) saa] (wizards) 
ases o ee 
a * 区 四 
提交 记录 数量 “1000 ° 
ass n 
DRAS O 
aeaa] 
主 选 硕 、、 数 据 库 字 段 | 
表 分 区 数据 回 
Eo [aso J wo |[ so | J 


图 6-99 “ 表 输 出 "界面 


在 图 6-99 中 单 击 “ 新 建 "按钮 ,配置 数据 库 连 接 ( 所 连接 的 数据 库 transform 须 提前 创建 ， 
KERGE) ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数据 库 连 接 的 配置 如 图 6-100 所 示 。 


单 击 图 6-99 中 目标 表 右 侧 的 “浏览 ”按钮 ,指定 输出 目标 表 , 即 数据 表 temporary( 该 表 
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s= 连接 名 称 : 
选项 — 
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i 连接 类 型: == 
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MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 数据 库 名 称 : 
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Native Mondrian 3 #05: 
Neoview 3306 © 
Netezza n 
OpenERP Server RPE: 
=| root ° 
连接 方式 : =ë 
= 
pea Use Result Streaming Cursor 
[a ama) ws J 


须 提前 创建 ,这 里 不 演示 ); 勾 选 “指定 数据 库 字 段 " 复 选 框 ,用 于 将 数据 表 temporary 的 字段 


图 6-100 MySQL 数据 库 连接 的 配置 


与 “字段 选择 4” 控 件 输出 流 中 的 字段 进行 匹配 ,如 图 6-101 所 示 。 


EE] 


= m s= 


DEREZE maiz 


数据 库 连 接 [granularity 


目标 模式 


“| (tn) [t-s] (wizara) 
© sea 


目标 表 temporary 


se] 
° 


提交 记录 数量 “1000 
m 

DEAS O 

指定 数据 库 字 息 M 


ERS 数据库 字段 | 


表 分 区 数据 回 


PEF 


每 个 月 分 区 数据 @ 


(Onee) 


[aso |[ wwo J| sa J 


图 6-101 指定 输出 目标 表 和 人 勾 选 “指定 数据 库 字 段 " 复 选 框 


单 击 图 6-101 中 的 “数据 库 字段 ”选项 卡 , 具 体 如 图 6-102 所 示 。 


在 图 6-102 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,具体 如 图 6-103 


所 示 。 


在 图 6-103 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 "中 对 应 的 字段 ,再 单 击 Add 按 
钮 ,将 一 对 映射 字段 添加 至 “映射 " 框 中 ,车 “ 源 字段 ”中 的 字段 和 “目标 字段 "中 的 字段 相同 ， 


则 可 以 单 击 “ 猜 一 猜 按 钮 ,让 Kettle 自动 实现 映射 .具体 如 图 6-104 所 示 。 
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EE] = = 
DEZE SeH 
PERR [goneriy (an) (R) wasi) 
目标 楼 式 * [ss] 
目标 表 temporary eea 
提交 记录 数量 1000 ° 
ass 回 
忽略 插入 错误 O 
指定 数据 库 字 段 团 
DER [MEEF 
插入 的 字段 : 
[$ a7% ara E 
[SAFRE 
(Onee) Caso | wao ] sq J 
图 6-102 “数据 库 字 段 " 选 项 卡 
FT7722 [=e iss] 
源 字 段 
id 
salesArea 
自动 选择 目标 


隐 茂 已 经 匹配 的 源 字 段 


图 6-103 “映射 匹配 "对话 框 


salesArea --> salesArea 


图 6-104 设置 映射 匹配 


在 图 6-104 中 单 击 “确定 ”按钮 ,完成 “ 源 字段 ”与 “目标 字段 ”的 映射 匹配 。“ 表 输出 2” 控 
件 配 置 的 效果 图 如 图 6-105 所 示 。 


在 图 6-105 中 单 击 “ 确 定 ” 按 钮 .完成 “ 表 输出 2” 控 件 的 配置 。 
18. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 granularity_merge, 并 添加 “ 表 输 入 ”控件 “字段 选择 ”控件 、 


“排序 记录 ”控件 “记录 和 集 连 接 ” 控 件 “ 表 输出 ”控件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 6-106 
所 示 。 


图 6-105 “ 表 输 出 2 控件 配置 的 效果 图 


S£ granularity merge x 


bor H Dl py BR FJ 10% ~ 


图 6-106 ”创建 转换 granularity_merge 


19. 配置 “ 表 输 入 ”控件 


双击 图 6-106 中 的 “ 表 输入 ”控件 ,进入 “ 表 输入 ”界面 ,如 图 6-107 所 示 。 


E BAA <le] 
SEZR EEA 
TEE ~ (anns) ss] (bizard) 
< Ezr 


SELECT <¢values> FROM <table name> WHERE <conditions> 
. 


行 1 列 0 


允许 简易 转换 回 
Es SQL 语句 里 的 变量 回 


从 步 要 搬入 数据 


执行 每 - 行 ? Fl 


记录 数量 限制 0 


Lao J mse J mo ) 


A 6-107 “ 表 输 入 ”界面 
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在 图 6-107 中 单 击 * 新 建 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连接 的 配置 如 图 6-108 所 示 。 


目 misis ES) 
高 级 连接 名 称 : 
迁 项 - 
连接 池 granularity_merge 
„= 连接 类 型: == 
Z] ENE 
Native Mondrian localhost ° 
Neoview 
Naa BEREE 
OpenERP Server transform ° 
Oracle 
Oracle RDB a nos 
Palo MOLAP Server 3306 ° 
Pentaho Data Services 
PostgreSQL ~ 
if ~| root ° 
连接 方式 : zR 
*..... ° 
Fees [Z] Use Result Streaming Cursor 


图 6-108 MySQL 数据 库 连接 的 配置 


在 图 6-107 的 SQL 框 中 编写 获取 数据 表 temporary 中 字段 id 和 salesArea 数据 的 
SQL 语句 ,然后 单 击 “ 预 览 ” 按 钮 ,查看 数据 表 temporary 中 的 数据 是 否 成 功 从 MySQL 数据 
库 中 抽取 到 表 输 入 流 中 ,具体 如 图 6-109 和 图 6-110 所 示 。 


EET =m] s= 
DEER MAA 
数据 库 连 接 | granularity_ merge ~| [i] (8) [Wizard] 
a (msama) 
PEE a 
,Saleshrea 国 
FROM tenporary 
ü + 
f1 30 
记 许 简易 转换 回 
an SQL 语句 里 的 变量 回 
从 步 要 括 入 数据 = 
执行 每 - 行 口 
记录 数量 限制 0 ° 
[Ore] [mo |( mam | 


图 6-109 编写 SQL 语句 


从 图 6-110 中 可 以 看 出 ,数据 表 temporary 中 的 数据 已 经 成 功 从 MySQL 数据 库 中 抽取 
到 表 输 入 流 中 , 单 击 “ 关 闭 ” 一 “确定 ?按钮 ,完成 “ 表 输入 ”控件 的 配置 。 
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ESA = x 
SE RAA 的 数据 (40 rows) 
al id salesArea = 
1 v wis 
2 1 北京 市 
3 36 山东 省 
4 2 北京 市 
s 4 use 
6 40 use 
7 6 北京 市 
8 12 北京 市 
9 5 ats 
10 24 北京 市 
u 25 PHG) 
12 39 北京 市 
13 28 WIS 
14 13 t 
15 29 Ben 
16 9 Bs 
17 30 天 津 市 
18 3 上 海 市 
19 20 陕西 者 
20 37 陕西 站 = 
图 6-110 ”预览 数据 


20. 配置 “字段 选择 ”控件 
双击 图 6-106 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ” 界 面 ,如 图 6-111 所 示 。 


E 选择 /改名 值 ole] = J) 
DEER FRR 
a S. E] 
字段 : 
f FREG BEM 长 度 精度 
ED 
包 全 未 指定 的 列 按 名 称 排序 E 
[see] 
Ú J 


图 6-111 “选择 /改名 值 "界面 


在 图 6-111 中 的 “选择 和 修改 ”选项 卡 的 “字段 ”处 手动 添加 所 需 字 段 ,这 里 添加 字段 id 
和 salesArea, 用 于 与 数据 表 company 中 的 数据 进行 合并 。“ 选 择 和 修改 ”选项 卡 的 配置 如 
图 6-112 所 示 。 


在 图 6-112 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 
21. 配置 “排序 记录 ”控件 
双击 图 6-106 中 的 “排序 记录 ”控件 .进入 “排序 记录 ”界面 ,如 图 6-113 所 示 。 
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EEA L= Te sss) 
SESB yg 
EBEN ER TAE] 
字段: 
£ | 字段 名 称 改名 成 长 度 精度 
1 id £ 
2 salesArea ED 
包含 未 指定 的 列 按 名 称 排序 回 
— (=o, )( wao J 
图 6-112 “选择 和 修改 "选项 卡 的 配置 
1 排序 记录 = 
DEER 排序 记录 
排序 目录 “%%javajo.tmpdir%% o po] 
ERANS out 
排序 稻 存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 ° 
未 使 用 内 存 限 值 (%) ° 
Ea OE ° 
仅仅 传递 非 重复 的 记录 ? (仅仅 校 验 关键 字 ) M 
字段 : 
£ FEER 。 升序 ANSER 。 Sort based on current locale? — Collator Strength | Presorted? 
1 
(Ore) (azo J[ mao |[ amsn | 


图 6-113 “排序 记录 ”界面 


在 图 6-113 的 “字段 ” 框 中 添加 字段 id, 以 此 字段 为 基础 对 所 有 数据 进行 升序 排序 ,具体 


如 图 6-114 所 示 。 


Iz 排序 记录 lela] 
DEER 排序 记录 
排序 目录 %9%6javajiotmpdir%% ° 
ELAS out 
HREFNA EFRR) 1000000 ° 
未 使 用 内 存 限 值 (%) ° 
让 ta 文件 令 回 ° 
仅仅 传送 非 重复 的 记录 ? (仅仅 检验 关键 字 ) FJ 
字段: 
£ FEER HF ANSES Sort based on current locale? — Collator Strength — Presorted? 
1 id 是 = = 0 = 


图 6-114 配置 “排序 记录 ”控件 
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在 图 6-114 中 单 击 “确定 ”按钮 ,完成 “排序 记录 ”控件 的 配置 。 
22. 配置 “ 表 输 入 2” 控 件 
双击 图 6-106 中 的 “ 表 输 入 2” 控 件 ,进入 “ 表 输入 ”界面 .如 图 6-115 所 示 。 


图 6-115 “ 表 输 入 ”界面 


在 图 6-115 中 单 击 “ 新 建 ”" 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连接 的 配置 如 图 6-116 所 示 。 


EP E) 
ER 3828: 
=m - 
wasi: dl 
=m e= 
— z 
localhost ° 
BREET 
transform ° 
aos 
Palo MOLAP Server 3306 ° 
Pentaho Data Services 用 户 名 : 
-ro o n o 
J eR 
ws... 9 
pose E Use Result Streaming Cursor 
EE 
Cm |[ ms J 


图 6-116 MySQL 数据 库 连接 的 配置 


在 图 6-115 的 SQL 框 中 编写 SQL 语句 ,用 于 查询 数据 表 company 中 的 全 部 数据 ,然后 
单 击 “ 预 览 ” 按 钮 ,查看 数据 表 company 中 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 表 输 
入 流 中 ,具体 如 图 6-117 和 图 6-118 所 示 。 


FROM conpany 
. 


E SAA [= 
步 要 名 称 ” 雪 输入 2 
EURER [granularity_merge (S5) (2) (Wizara. 
SQL 
SELECT * 


行 2 列 11 

允许 简易 转换 [PJ 

Bn SQL 语句 里 的 变量 加 
从 步 要 插入 数据 š 

msr O 
记录 数量 限制 0 ° 

[O ee) [Cmn J mao | 
图 6-117 编写 SQL 语句 
国 masmi lele] = J 
步骤 SEA 2 的 数据 (40 rows) 
£ | id salesArea brand model unitprice number ^ 
1 1 北京 市 4 为 华为 nova 5 Pro ( 8GB/128GB/ 全 网 通 ) 2999 31 
2 2 dom == 苹果 iphone 11 Pro ( 6GB/64GB/ 全 网 通 ) 8699 so 
3 3 上 海 市 7% 3ESBiPhone 11 Pro ( 56GB/256GB/ 全 网 通 ) 9999 20 
4 4 山西 省 g 苹果 iphone 11 ( 4GB/64GB/ 全 网 通 ) 5499 20 
5 5 aits OPO OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 27 
6 6 北京 市 =m 三 星 GALAXY Note 10+ ( 12GB/256GB/ 全 网 通 /5G 版 ) 7999 32 
7 7 石家庄 市 。 OPPO — OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 20 
8 8 RBIS 华为 华为 Mate30 ( 8G8/128GB/ 全 网 通 /5G 版 /琉璃 版 ) 4999 34 
9 9 ”陕西 省 vivo vivo iQOO Pro ( 8GB/128GB/5G 全 网 通 ) 3798 38 
10 10 A$ OPO OPPO Reno 10 信 变焦 版 ( 8GB/256GB/ 全 网 通 ) 4299 35 
ll 11 #88 vivo vivo NEX 3 ( 8GB/256GB/ 全 网 通 /5G 版 ) 5698 26 
12 12 北京 市 vivo vivo NEX 3 ( 8GB/128GB/ 全 网 通 ) 4998 26 
B 13 天 市 R FRiPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 18 
14 14 S vivo vivo iQOO Pro ( 8GB/128GB/5G 全 网 通 ) 3798 25 
15 15 西安 市 华为 华为 P30 Pro ( 8GB/128GB/ 全 网 通 ) 4988 30 
16 16 重庆 市 J 小 米 9 ( 8GB/256GB/ 全 网 通 ) 2999 26 
v v mis == 苹果 iphone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 35 
18 18 大 同市 小 米 小 洲 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 22 
19 19 重庆 市 == 苹果 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 38 
2 20 BAS 小 米 小 米 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 3799 39 = 


图 6-118 预览 数据 


从 图 6-118 中 可 以 看 出 ,数据 表 company 中 的 数据 已 成 功 从 MySQL 数据 库 中 抽取 到 
表 输 入 流 中 , 单 击 “关闭 ”确定 ”按钮 ,完成 表 输 入 2” 控 件 的 配置 。 


23. 配置 “字段 选择 2 控件 


双击 图 6-106 中 的 “字段 选择 2” 控 件 ,进入 “选择 /改名 值 ” 界 面 ,如 图 6-119 所 示 。 
在 图 6-119 中 的 “选择 和 修改 ”选项 卡 的 “字段 ”处 手动 添加 所 需 字段 ,这 里 添加 字段 id、 
brand、model、unitPrice .number, 之 后 通过 字段 id 将 数据 表 temporary 中 的 字段 salesArea 


选择 和 自 改 、、 移 除 | 元 数控 | 
ima = = æ Eza 
2 [mw] 
包 全 未 指定 的 列 按 名 称 排序 回 
EE 


6-119 “选择 /改名 值 "界面 


和 数据 表 company 中 的 数据 进行 合并 。“ 选 择 和 修改 "选项 卡 的 配置 如 图 6-120 所 示 。 


(E memen = 
步 邓 名 称 ” 字 自选 择 2 
CE] 
字段 : 
HEZI 1 Ka 精度 二 | [| 
1 id 
2 brand asi) 
3 model 
4 unitPrice 
5 number há 
包含 未 指定 的 列 按 名 称 排序 回 
图 6-120 “选择 和 修改 "选项 卡 的 配置 


在 图 6-120 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 2” 控 件 的 配置 。 
24. 配置 “排序 记录 2” 控 件 


双击 图 6-106 中 的 “排序 记录 2” 控 件 , 进 入 “排序 记录 ”界面 ,具体 如 图 6-121 所 示 。 


iz 排序 记录 = z 
PEER “排序 记录 2 
排序 目录 9696javaiio.tmpdir%% ° [esw] 
ERANS out 
MREFA NAFERENORE) 1000000 ° 
未 使 用 内 存 限 值 (%) ° 
Eau on ° 
仅仅 传递 非 重 复 的 记录 ? (仅仅 检验 关键 字 ) 加 
字段: 
£ FEER AF 。 大 小 名 感 Sort based on current locale? — Collator Strength 。 Presorted? 
1 


图 6-121 “排序 记录 ”界面 
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在 图 6-121 的 “字段 ” 框 中 添加 字段 id, 以 此 字段 为 基础 对 全 部 数据 进行 升序 排序 ,具体 
如 图 6-122 所 示 。 


z 排序 记录 l= 
SEER ”排序 记录 2 
排序 目录 %%java.io.tmpdir%% ° [pese] 
BLARS out 


HERRFA NAR EFRA 1000000 ° 


未 使 用 内 存 限 值 96) ° 
Eaim On ° 
仅仅 传递 非 重 复 的 记录 ? (仅仅 校 验 关键 字 ) 回 
字段 : 
£ | 字段 名 称 。 升序 。 大 小 写 敏感 Sort based on current locale? — Collator Strength 。 Presorted? 
1 id 是 = Gi 0 = 


图 6-122 配置 “排序 记录 2” 控件 
在 图 6-122 中 单 击 “确定 ”按钮 ,完成 “排序 记录 2” 控 件 的 配置 。 
25. 配置 “记录 集 连 接 " 控 件 
双击 图 6-106 中 的 “记录 集 连 接 ” 控 件 , 进 入 “合并 排序 ”界面 ,如 图 6-123 所 示 。 


o 合并 排序 [sle| = 
步 要 名 称 记录 集 连 接 
ao = 
a-m = 
连接 类 型: INNER ~ 
第 一 个 步 村 的 连接 字段 第 一 个 步 要 的 连接 字 良 
é mere £ mere 


图 6-123 “合并 排序 "界面 


在 图 6-123 中 ”第 一 个 步骤 : ”后 的 下 拉 列 表 中 选择 “排序 记录 ”, 在 “第 二 个 步骤 : ”后 的 
下 拉 列 表 中 选择 “排序 记录 2”; 在 “第 一 个 步骤 的 连接 字段 ”和 * 第 二 个 步 又 的 连接 字段 ?处 
添加 连接 字段 ,这 里 添加 的 连接 字段 是 id 和 id, 用 于 将 “排序 记录 ”控件 中 的 数据 与 “排序 记 
录 2” 控 件 中 的 数据 合并 连接 ;在 “连接 类 型 "处 的 下 拉 列 表 中 选择 连接 类 型 ,这 里 选择 的 是 
FULL OUTER, 即 完全 外 连接 ,具体 如 图 6-124 所 示 。 

在 图 6-124 中 单 击 “确定 ”按钮 ,完成 “记录 和 集 连 接 " 控 件 的 配置 。 


26. 配置 “字段 选择 3” 控 件 


双击 图 6-106 中 的 “字段 选择 3” 控 件 , 进 入 “选择 /改名 值 ”界面 ,如 图 6-125 所 示 。 
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++ 合并 排序 


图 6-125 “选择 /改名 值 "界面 


在 图 6-125 中 “选择 和 修改 ”选项 卡 的 “字段 "处 手动 添加 所 需 字 段 ,由 于 源 数 据 表 
company 中 包含 字段 id、salesArea、brand、model、unitPrice,number, 因 此 需要 获取 “记录 和 集 
连接 ”控件 流 中 的 字段 id, salesArea, brand, model, unitPrice, number, 用 于 与 源 数据 表 
company 中 的 字段 对 应 ,具体 如 图 6-126 所 示 。 


Es BREN LET 可 | = 
SEER PMAR 
CE] 
>a: 
EES 改名 成 Ke mz EEE] 
1 id ARD 
2 salesArea 
3 brand 
4 model 
5 unitPrice 
6 number - 


[ wo ] 


6-126 “字段 选择 3” 控 件 的 配置 
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在 图 6-126 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 3” 控 件 的 配置 。 
27. 配置 “ 表 输 出 ”控件 
双击 图 6-106 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 "界面 ,具体 如 图 6-127 所 示 。 


[a =e lele 


SEER FaH 


3 
ml, | | 
(BUB). 

° 


目标 模式 ° 
目标 雪 ° 
提交 记录 数量 1000 
ars 回 
DRADE 口 
指定 数 撕 库 字 段 Fl 
Saera] 


表 分 区 数据 加 


[Oei] (azo |]| mo ][ sq. | 


A 6-127 “ 表 输 出 ”界面 


在 图 6-127 中 单 击 * 新 建 "按钮 ,配置 数据 库 连接 (所 连接 的 数据 库 transform 须 提 前 创建 ， 
这 里 不 袭 述 ) ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数据 库 连接 的 配置 如 图 6-128 所 示 。 


EP 
高 mez 
=m - 
as ed paa 
=" e= 
— =a: 
localhost ° 
BREET 
transform ° 
=n 
Palo MOLAP Server 3306 ° 
Pentaho Data Services 用 户 名 : 
-ro 
w o 
Prog E] Use Result Streaming Cursor 
acea 
Em J[ m= ) 


图 6-128 MySQL 数据 库 连接 的 配置 


单 击 图 6-127 中 目标 表 右 侧 的 “浏览 ?按钮 ,指定 输出 目标 表 , 即 数据 表 company_new 
(该 表 须 提前 创建 ,这 里 不 演示 ); 勾 选 “ 指 定数 据 库 字段 " 复 选 框 ,用 于 将 数据 表 temporary 
的 字段 与 “字段 选择 3” 控 件 输出 流 中 的 字段 进行 匹配 ,如 图 6-129 所 示 。 


清洗 
EE] [= = 
步 要 名 称 SEH 
sassa [ornamen -a ma [e 
目标 模式 eea 
aes [emra] ° [o 


图 6-129 指定 输出 目标 表 和 勾 选 “指定 数据 库 字段 * 复 选 杠 


单 击 图 6-129 中 的 “数据 库 字 段 " 选 项 卡 ,具体 如 图 6-130 所 示 。 


图 6-130 “数据 库 字 段 ” 选 项 卡 


在 图 6-130 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,具体 如 图 6-131 所 示 。 


图 6-131 “映射 匹配 "对话 框 
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在 图 6-131 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 对 应 的 字段 ,然后 单 击 Add 
按钮 ,将 一 对 映射 字段 添加 至 "映射" 框 中 , 若 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 相 
同 , 则 可 以 单 击 “ 猜 一 猿 ”按钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 6-132 所 示 。 


id --> id 
salesArea --> salesArea 


自动 选择 目标 自动 渤 择 源 回 
RECESIE RECEIENRTFR 


A 6-132 设置 映射 匹配 


在 图 6-132 中 单 击 “ 确 定 "按钮 ,完成 “ 源 字 段 ” 与 “目标 字段 "的 映射 匹配 。“ 表 输出 ” 控 
件 配置 的 效果 图 如 图 6-133 所 示 。 


EESE = 
DEZE mat 

数据 库 连 接 [granulariy_merge - (ae) at (izard) 

目标 模式 o [sea 

目标 表 company_ new © [bus] 

提交 记录 数量 |1000 ° 


ass 回 


A 6-133 “ 表 输出 ”控件 配置 的 效果 图 


在 图 6-133 中 单 击 “ 确 定 ” 按 钮 .完成 “ 表 输出 ”控件 的 配置 。 

28. 打开 Kettle 工具 ,创建 作业 

使 用 Kettle 工具 创建 作业 granularity, 并 添加 Start 控件 “转换 ”控件 “成 功 ” 控 件 以 
及 作业 跳 连 接线 ,具体 效果 如 图 6-134 所 示 。 


29. 配置 Start 控件 
双击 图 6-134 中 的 Start 控件 ,进入 “作业 定时 调度 ”界面 ,具体 如 图 6-135 所 示 。 
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Dejo Hoy] | 
Start 成 功 


转换 转换 2 


. 


图 6-134 创建 作业 granularity 


Job entry name Start 


重复 : 回 
Fe = - 
以 种 计算 的 间隔 10 图 
以 失 名 计算 的 间隔 [6 图 
RE g 
m= 
每 月 本 ËJ 


图 6-135 “作业 定时 调度 ”界面 


在 图 6-135 中 可 以 设置 时 间 调 度 以 执行 作业 ,这 里 使 用 默认 配置 ,不 作 修 改 。 单 击 “ 确 
定 ” 按 钮 ,完成 Start 控件 的 配置 。 


30. 配置 “转换 ”控件 
双击 图 6-134 中 的 “转换 ”控件 ,进入 “转换 ”界面 ,具体 如 图 6-136 所 示 。 


Transformation: 


Options N、 设 置 日 志 | Arguments | 命名 参数 | 


Run configuration: 
Pentaho local -e 


图 6-136 “转换 "界面 
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在 图 6-136 中 单 击 “浏览 ”按钮 ,选择 添加 转换 granularity 至 作业 中 ,如 图 6-137 所 示 。 


x 转换 lele] 
PURER Ye 
转换 AR 
Transformation: 


$(InternaLEntry.Current.Directory)/granularity.ktr ° EE 


Options 、 设 置 日 志 | Arguments | 命名 参数 | 


Run configuration: 
Pentaho local -e 


Execution 


回 执行 每 一 个 妨 入 行 ? 

E 在 执行 前 清除 结果 行列 表 ? 

E 在 执行 前 清除 结果 文件 列表 ? 

等 待 远程 转换 执行 结束 

E 本 地 转换 终止 时 远程 转换 也 通知 终止 


[Oe] [aso | [mo] 


图 6-137 添加 转换 granularity 至 作业 中 
在 图 6-137 中 单 击 “ 确 定 ” 按 钮 ,完成 “转换 ”控件 的 配置 。 
31. 配置 “转换 2” 控 件 
双击 图 6-134 中 的 “转换 2” 控 件 , 进 入 “转换 ”界面 ,具体 如 图 6-138 所 示 。 


x 转换 lels] 
tum Y 
Er AR 
Transformation: 
* s=) 


Options RERE] Arguments | 命名 参数 | 


Run configuration: 
Pentaho local -e 


Execution 


加 执行 每 一 个 给 入行 ? 

加 在 执行 前 清 险 结果 行列 表 ? 

固 在 执行 前 清除 结果 文件 列表 ? 

Z| 等 待 远程 转换 执行 结束 

加 本 地 转 搞 终 止 时 远程 转换 也 通知 终止 


LO ner) Laso) 


A 6-138 “转换 "界面 
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在 图 6-138 中 单 击 “浏览 ?按钮 ,选择 添加 转换 granularity_merge 至 作业 中 ,如 图 6-139 
所 示 。 


lele] x J 


作业 项 名 称 : yr 
转换 2 


Transformation: 
S${Internal.Entry.Current.Directory}/granularity_ merge.ktr ® [ea] 


Options \\ 设 置 日 志 | Arguments) 命名 参数 | 


Run configuration: 


Pentaho local X ° 


Execution 


回 执行 每 一 个 输入 行 ? 

E 在 执行 前 清除 结果 行列 表 ? 

E 在 执行 前 清除 结果 文件 列表 ? 

等 待 远程 转换 执行 结束 

E 本 地 转换 终止 时 远程 转换 也 通知 终止 


[nao ] wo) 


图 6-139 添加 转换 granularity_merge 至 作业 中 
在 图 6-139 中 单 击 “ 确 定 ” 按 钮 .完成 “转换 2” 控 件 的 配置 。 
32. 运行 作业 granularity 


单 击 作业 工作 区 顶部 的 号 按钮 ,运行 创建 的 作业 granularity, 实 现 将 数据 表 company 
中 字段 为 salesArea 的 数据 都 统一 成 省 份 级 ,并 存储 到 数据 表 company_new 中 ,具体 如 
图 6-140 所 示 。 


Ç Z granularity 22 
>-0 P FPE FJ lo ~ 


图 6-140 运行 作业 granularity 
从 图 6-140 的 对 勾 图 标 可 以 看 出 ,作业 granularity 运行 成 功 。 
33. 查看 数据 表 company_new 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 company_new 中 字段 为 salesArea 的 数据 是 否 都 为 省 
份 级 ,查看 结果 如 图 6-141 所 示 ( 只 展示 部 分 数据 ) 。 
从 图 6-141 中 可 以 看 出 ,数据 表 company_new 中 字段 为 salesArea 的 数据 都 为 省 份 级 。 


华为 nova 5 Pro〔86B/1286B/ 全 网 通 ) 

苹果 iPhone 11 Pro (66B/646B/ 全 网 通 ) 
苹果 iPhone 11 Pro (66B/256GB/ 全 网 通 ) 
苹果 iPhone 11 (46B/646B/ 全 网 通 ) 

OPPO Reno2 (86B/1286B/ 全 网 通 ) 

| 三星 GALAXY Note 10+ (12GB/2566B/ 全 网 通 /56 版 ) 
OPPO Reno2 86B/1286B/ 全 网 通 ) 

| 华为 Mate30 《86B/1286B/ 全 网 通 /56 版 /玻璃 版 ) 
[vivo iQ00 Pro 〈8GB/128GB/5G 全 网 通 ) 
OPPO Reno 10 信 变焦 版 《8GB/256GB/ 全 网 通 ? 
vivo NEX 3〔8GB/256GB/ 全 网 通 /5G 版 ) 
vivo NEX 3〈8GB/128GB/ 全 网 通 ) 

苹果 iPhone 11 Pro Max (66B/646B/ 全 网 通 ) 
vivo iQ00 Pro〔86B/1286B/56 全 网 通 ) 
华为 P30 Pro 86B/1286B/ 全 网 通 ) 

小 米 9 (86B/2566B/ 全 网 通 ) 

苹果 iPhone 11 Pro Max〔66B/646B/ 全 网 通 ) 
小 米 9 Pro〔86B/2566B/ 全 网 通 /56 版 ) 

苹果 iPhone 11 Pro Max 《66B/646B/ 全 网 通 ) 
小 米 9 Pro《86B/2566B/ 全 网 通 /56 版 ) 

华为 Mate 20 X 〔〈8GB/256GB/ 全 网 通 /5G 版 ) 
OPPO R17 (8GB RAM/ 全 网 通 ) 

苹果 iPhone 11 Pro Max (66B/646B/ 全 网 通 ) 
三 星 Galaxy S10+ (8GB RAM/ 陶 次 版 /全 网 通 ) 
苹果 iPhone 11 (46B/1286B/ 全 网 通 ) 


图 6-141 数据 表 company_new 


6.4 数据 的 商务 规则 计算 


不 同 的 企业 有 不 同 的 业务 规则 和 数据 指标 ,这 些 指标 应 该 计算 完 存储 到 数据 仓库 中 , 供 
企业 决策 者 进行 分 析 , 从 而 得 出 战略 性 的 企业 决策 。 例 如 ,A 公司 和 B 公司 的 总 公司 想 得 
知 各 省 份 的 手机 日 销售 额 ,这 就 属于 一 个 商务 规则 。 可 以 通过 对 数据 表 company_new 中 的 
数据 进行 处 理 和 计算 ,得 出 总 公司 需要 的 各 省 份 的 手机 日 销售 额 。 数 据 表 company_new 中 
的 数据 内 容 如 图 6-142 所 示 。 

下 面 通过 Kettle 工具 对 数据 表 company_new 中 的 数据 进行 商务 规则 的 计算 , 即 对 数 
据 表 company_new 中 的 数据 进行 相关 处 理 和 计算 ,从 而 得 出 手机 在 各 省 份 的 日 销售 额 ,并 
存储 于 数据 表 regional_sales 中 ,具体 实现 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 total, 并 添加 “ 表 输 入 ”控件 “字段 选择 ”控件 “计算 器 ” 控 
件 “ 排 序 记录 ”控件 “分 组 ”控件 “唯一 行 ( 喻 希 值 )" 控 件 “ 表 输出 ”控件 以 及 Hop 跳 连 接 
线 , 具 体 效 果 如 图 6-143 所 示 。 


2. 配置 “ 表 输 入 ”控件 


双击 图 6-143 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 6-144 所 示 。 
在 图 6-144 中 单 击 “ 新 建 ”" 按 钮 , 配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 6-145 所 示 。 
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数据 清洗 
lia | = number | 
1 北京 市 华为 ”| 华为 nova 5 Pro 〈8GB/128GB/ 全 网 通 ) 2999 
2 北京 市 苹果 ”| 苹果 iPhone 11 Pro (6GB/646B/ 全 网 通 ) 8699 
3| 上 海 市 苹果 ”| 革 果 iphone 11 Pro (66B/2566B/ 全 网 通 ) 9999 
4 山西 省 苹果 ”| 革 果 iPhone 11 (46B/646B/ 全 网 通 ) 5499 
5 河北 省 OPPO [OPPO Reno2 (86B/1286B/ 全 网 通 ) 2999 
6 北京 市 ZE ”| 三 性 GALAXY Note 10+ (126B/2566GB/ 全 网 通 /56 版 )|7999 
7 河北 省 OPPO —|OPPO Reno2 (86B/1286B/ 全 网 通 ) 2999 
8 黑龙 江 省 | 华为 ”| 华为 Mate30〔86B/1286B/ 全 网 通 /56 版 /玻璃 版 ) 4999 
9 引 陕 西 省 [vivo jvivo iQ00 Pro〔86B/1286GB/56 全 网 通 ) 3798 
10| 辽 宁 省 OPPO OPPO Reno 10 倍 变焦 版 86B/2566B/ 全 网 通 ) 4299 
11| 河 北 省 vivo — [vivo NEX 3〔86B/2566B/ 全 网 通 /56 版 ) 5698 
12| 北 京 市 Vivo vivo NEX 3〈8GB/128GB/ 全 网 通 ) 4998 
13| 天 津 市 苹果 “| 苹果 iPhone 11 Pro Max (66B/646B/ 全 网 通 ) 9599 
14| 山 东 省 lvivo ”|vivo iQ00 Pro 86B/1286B/56 全 网 通 ) 3798 
15 | 陕西 省 华为 。” | 华为 P30 Pro 〈8GB/128GB/ 全 网 通 ) 4988 
16| 重 庆 市 小 米 “| 小 米 9 (86B/2566B/ 全 网 通 ) 2999 
17 四川 省 苹果 “| 苹果 iPhone 11 Pro Max (66B/64GB/ 全 网 通 ) 9599 
18 | 山西 省 小 米 | 小 米 9 Pro 86B/2566B/ 全 网 通 /56 版 ) 3799 
19| 重 庆 市 苹果 “| 苹果 iPhone 11 Pro Max (6GB/64GB/ 全 网 通 ? 9599 
20 陕西 省 小 米 | 小 米 9 Pro (86B/2566B/ 全 网 通 /56 版 ) 3799 
21| 上 海 市 华为 ” | 华为 Mate 20 X (8GB/256GB/ 全 网 通 /5G 版 ) 6199 
22| 黑 龙 江 省 OPPO (OPPO R17 (8GB RAM/ 全 网 通 ) 2499 
23| 广 东 省 苹果 “| 苹果 iPhone 11 Pro Max (66B/646B/ 全 网 通 ) 9599 
24| 北 京 市 ZE ”| 三 星 Galaxy S10+ (8GB RAM/ 陶 次 版 /全 网 通 ) 7499 
25| 河 北 省 苹果 | 苹果 iPFhone 11 (46B/1286B/ 全 网 通 ) 5999 


图 6-142 数据 表 company_new 中 的 数据 内 容 
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图 6-143 ”创建 转换 total 


SQL 


SELECT <values> FROM <table name> WHERE 《conditions》 


行 1 列 0 


允许 简易 转换 回 


[ao |[ mn J| wo | 


图 6-144 “ 表 输 入 ”界面 
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EP 

高 级 连接 名 称 : 

选项 

连接 地 L 

x= 连接 类 型: 设置 
MS Access z] ENER 
MS SQL Server localhost ° 
MS SQL Server (Native) . 
MariaDB RESE 
MaxDB (SAP DB) transform ° 
MonetDB 3 s03% 
Native Mondrian 3306 ° 
Neoview 
Netezza 用 户 名 : 
OoenERP Server 7| root ° 
连接 方式 : ER: 

ee 9 

Fd Use Result Streaming Cursor 


图 6-145 MySQL 数据 库 连接 的 配置 


在 图 6-144 的 SQL 框 中 编写 查询 数据 表 company_new 中 全 部 数据 的 SQL 语句 ,然后 
单 击 “ 预 览 ” 按 钮 ,查看 数据 表 company_new 中 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 
表 输 入 流 中 ,具体 如 图 6-146 和 图 6-147 所 示 。 


DEER WA 
Ms [ol 了 [ES [Be wara.) 
四 [Emamma] 
SELECT * FROM company_new . 
x 5 
行 1 列 9 
允许 简易 转 找 加 
t SQL 语句 里 的 变量 F 
从 步 要 搬入 数据 
执行 每 一行 ? 口 
记录 数量 限制 0 ° 
° [aso |[ man J| wwo | 


图 6-146 编写 SQL 语句 


从 图 6-147 中 可 以 看 出 ,数据 表 company_new 中 的 数据 已 经 成 功 从 MySQL 数据 库 中 
抽取 到 表 输 入 流 中 , 单 击 “ 关 闭 ” 一 “确定 ?按钮 ,完成 “ 表 输 入 ”控件 的 配置 。 


3. 配置 “字段 选择 ”控件 


双击 图 6-143 中 的 “字段 选择 ”控件 .进入 “选择 /改名 值 ” 界 面 ,如 图 6-148 所 示 。 
在 图 6-148 中 的 “选择 和 修改 ”选项 卡 的 “字段 ”处 手动 添加 所 需 字段 ,这 里 添加 字段 id, 


数据 清洗 
mass =| z 
HR 表 给 入 的 数据 (40 rows) 
[É id salesArea brand model unitprice number | ^ 

1 1 北京 市 华为 华为 nova 5 Pro ( 8GB/128GB/ 全 网 通 ) 2999 31 

2 2 北京 市 g 苹果 iPhone 11 Pro ( 6GB/64GB/ 全 网 通 ) 8699 

3 3 上 海 市 7R 苹果 iPhone 11 Pro ( 6GB/256GB/ 全 网 通 ) 9999 20 

4 4 山西 者 =e 苹果 iPhone 11 ( 4GB/64GB/ 全 网 通 ) 5499 20 

5 5 mia OPO OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 27 

6 6 北京 市 =m 三 星 GALAXY Note 10+ ( 12GB/256GB/ 全 网 通 /5G 版 ) 7999 32 

7 7 ma OPO OPPO Reno2 ( 8GB/128GB/ 全 网 通 ) 2999 20 

8 8 RDIS 华为 华为 Mate30 ( 8GB/128GB/ 全 网 通 /5G 版 /玻璃 版 ) 4999 34 

9 9 ”陕西 省 vivo vivo iQOO Pro ( 8GB/128GB/5G 全 网 通 ) 3798 

10 10 辽宁 省 OPO OPPO Reno 10 信 变 集 版 ( 8GB/256GB/ 全 网 通 ) 4299 35 
u 11 akts vivo vivo NEX 3 ( 8GB/256GB/ 全 网 通 /5G 版 ) 5698 26 
12 12 北京 市 vivo vivo NEX 3 ( 8GB/128GB/ 全 网 通 ) 4998 26 
13 13 E k. 3ESBiPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 18 
14 14 URS vivo vivo iQOO Pro ( 8GB/128GB/5G 全 网 通 ) 3798 25 
15 15 陕西 省 华为 华为 P30 Pro ( 8GB/128GB/ 全 网 通 ) 4988 30 
16 16 重庆 市 小 米 小 米 9 (8GB/256GB/ 全 网 通 ) 2999 26 
v 37 wis == 苹果 iPhone 11 Pro Max ( 6GB/64GB/ 全 网 通 ) 9599 35 
18 18 URS 小 米 小 米 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 22 
19 19 重庆 市 R 苹果 iphone 11 Pro Max ( 66B/64GB/ 全 网 通 ) 9599 38 
20 20 AS 小 米 小 米 9 Pro ( 8GB/256GB/ 全 网 通 /5G 版 ) 3799 39 ~ 


B 选择 /改名 值 Pa = 
DEER RRR 

CE] 

字段 : 

f FREG BEM 长 度 精度 


图 6-148 “选择 /改名 值 界 面 


salesArea unitPrice 和 number, 用 于 后 续 的 计算 处 理 , 具 体 配 置 如 图 6-149 所 示 。 

在 图 6-149 中 选择 “元 数据 ”选项 卡 , 切 换 到 “元 数据 "选项 卡 界面 ,如 图 6-150 所 示 。 

在 图 6-150 中 添加 需要 改变 元 数据 的 字段 ,由 于 数据 表 company_new 中 字段 unitPrice 
的 数据 类 型 为 varchar( 字 符 ) ,字段 number 的 数据 类 型 为 int, 又 由 于 字段 类 型 不 同 的 数据 
无 法 进行 计算 ,因此 需要 将 字段 unitPrice 的 数据 类 型 改 为 Integer, 从 而 进行 后 续 的 计算 操 
作 。“ 元 数据 ”选项 卡 的 配置 如 图 6-151 所 示 。 

在 图 6-151 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 


4. 配置 “计算 器 ”控件 
双击 图 6-143 中 的 “计算 器 ”控件 ,进入 “计算 器 "界面 ,如 图 6-152 所 示 。 
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Et 选择 /改名 值 [= s= 
SEER peas 

E E E] 

FR: 

| FEER 改名 成 长 度 精度 = 

Tiid 

= | = 
3 unitPrice 

4 number - 

包 会 未 指定 的 列 按 名 称 排序 回 

[Ca [aso ]| mao | 


图 6-149 添加 所 需 字 段 


B 选择 /改名 值 ele] 


步骤 名 称 ”字段 选择 
men [Ele [unda 


ES 


改名 成 ”类 型 KÆ 精度 ”Binary to Normal? 格式 ”Date Format Lenient? 


E 
A 6-150 “元 数据 ”选项 卡 界面 
Ez 选择 /改名 值 


DEER FER 


mresa [se [uman 


[£ | 字段 名 称 。 改名 成 。 sm 


长 度 精度 Binary to Normal? 
1 unitprice Integer = 
(——— 


» 


w 


图 6-151 “元 数据 ?选项 卡 的 配置 


在 图 6-152 中 的 “字段 ?处 添加 一 个 新 字段 salesAmount, 用 于 存储 计算 出 的 手机 日 销 
售 额 ;在 “字段 AM FE B" 处 的 下 拉 选 项 中 分 别 选择 unitPrice( 销 售 价格 ) 和 number 
售 数量 ) 字 段 ; 在 “计算 ”处 的 下 拉 选 项 中 选择 “A x B”, 即 表示 将 字段 A 与 字段 B 进行 相 乘 
计算 ,具体 如 图 6-153 所 示 。 


在 图 6-153 中 单 击 “ 确 定 ” 按 钮 ,完成 “计算 器 ”控件 的 配置 。 


š 
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EE ele] x 
SEZI = 
sa — 


Throw an error on non existing files 


字段 


|A mpm HA FEA Fe mC ED 长度。 Was 
il 


1 C uuu u 


» 


[Onee] [azo] [mao] 


A 6-152 “计算 器 "界面 


n 计算 器 lele 


es 
EE 


Throw an error on non existing files 


A 6-153 “计算 器 "控件 配置 的 效果 图 


5. 配置 “排序 记录 ”控件 


双击 图 6-143 中 的 “排序 记录 ”控件 .进入 “排序 记录 ”界面 ,如 图 6-154 所 示 。 


iz 排序 记录 = 
DEER 排序 记录 
排序 目录 %9gjavajiotmpdir%% ° EH] 
BS out 
排序 组 存 大 小 (内 存 里 存放 的 记录 数 ) 1000000 ° 
未 使 用 内 存 限 值 (36) ° 
让 Si 文件 Om ° 
仅仅 传递 非 重复 的 记录 ? (仅仅 校 验 关键 这) FJ 
字段: 
£ | 字段 名 称 f ANS Sort based on current locale? — Collator Strength — 


1 


[Ore] Cazo J[ wo J| #w*e | 


图 6-154 “排序 记录 ”界面 


第 6 章 数据 转换 


在 图 6-154 中 的 “字段 " 框 中 添加 字段 salesArea, 以 该 字段 为 基础 对 所 有 数据 进行 升序 
排序 ,具体 如 图 6-155 所 示 。 


iz 排序 记录 [= 
SEER 排序 记录 
排序 目录 9%96javajiotmpdir%% ° [usw] 
ES Tout 
BERETA NATEN) 1000000 ° 
未 使 用 内 存 限 值 (%) ° 
Eam On ° 
仅仅 传递 非 重 复 的 记录 7? (仅仅 校 验 关键 字 ) 回 
字段 : 
[£ Fee AF AN5S® Sort based on current locale? — Collator Strength Presorted? 
1 salesArea R S = 0 = 
[Oner] (ao JL mao | anse] 
图 6-155 配置 “排序 记录 ”控件 
在 图 6-155 中 单 击 “确定 ”按钮 ,完成 “排序 记录 ”控件 的 配置 。 
6. 配置 “分 组 ”控件 
双击 图 6-143 中 的 “分 组 ”控件 ,进入 “分 组 ”界面 ,如 图 6-156 所 示 。 
D: 分 组 = 
DEER 分 组 
包括 所 有 的 行 ? 回 
排序 目录 [%sgjavaiotmpdir%% ° 浏览 
anan [grp 
WTS SENA O 
行列 各 |[ 
sannan E 
RBF 
aE Ea 
x 
ge 
flam soja sm a [as | 
T 
(Onse) 


图 6-156 “分 组 ”界面 


在 图 6-156 中 的 “构成 分 组 的 字段 ”处 添加 分 组 字段 salesArea, 将 字段 salesArea 相同 
的 数据 分 为 一 组 ,便于 进行 “聚合 "操作 ;在 “聚合 ”处 添加 一 个 新 字段 total, 用 于 存储 各 省 份 
的 手机 销售 总 额 ,具体 如 图 6-157 所 示 。 

在 图 6-157 中 单 击 “ 确 定 ” 按 钮 ,完成 “分 组 ”控件 的 配置 。 


š 
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8: 分 组 [= s= 
RER 分 组 
包括 所 有 的 行 ? E 
排序 目录 %96gjavajiotmpdir%% ° 
ENHA grp 
增加 行 号 .每 组 重新 开始 回 
行 S 列 名 [ 
总 返回 一 个 结果 行 贺 
构成 分 组 的 字段 : 
£ aarm E _ [anza] 
1 salesArea 
EA: 
ŠER. Stiet — sa a EZA 
1 total salesAmount 求 和 
[Ohee] [ao ][ wo ] 


图 6-157 配置 “分 组 ”控件 


7. 配置 “字段 选择 2” 控 件 


双击 图 6-143 中 的 “字段 选择 2” 控 件 ,进入 “选择 /改名 值 ” 界 面 ,如 图 6-158 所 示 。 


DEER Fm2 

AERIS El | 元 数据 | 

字段 : 

ee sa = E29 

[Pm] 

包含 未 指定 的 列 按 名 称 排序 回 

[azo [aaa | 

图 6-158 “选择 /改名 值 "界面 


在 图 6-158 的 “选择 和 修改 ”选项 卡 中 选择 需要 的 字段 ,这 里 选择 的 字段 是 salesArea 和 
total, 用 于 后 续 在 “ 表 输 出 ”控件 中 进行 输出 操作 ,具体 如 图 6-159 所 示 。 


Es 选择 /改名 值 [= = 
DEER 字段 还 择 2 

选择 和 自 改 、、 移 除 | 元 数据 | 

+: 

gem] 改名 成 Ke 精度 Peca 

1 salesArea i 

i= | m 
包含 未 指定 的 列 按 名 称 排 序 回 

w 


图 6-159 “字段 选择 2" 控件 的 配置 
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在 图 6-159 中 单 击 “确定 ”按钮 ,完成 “字段 选择 2 控件 的 配置 。 
8. 配置 “唯一 行 " 控 件 
双击 图 6-143 中 的 “唯一 行 ?控件 ,进入 * 唯 一行? 界面 ,如 图 6-160 所 示 。 


Z 唯一 行 06808) PSI-1 


(Onesie) Emo J[ mo] sm | 


Wam—— Ís 


图 6-160 “唯一 行 ? 界 面 


在 图 6-160 中 的 “用 来 比较 的 字段 "处 添加 要 去 重 的 字段 ,因为 “字段 选择 2" 控 件 流 中 字 
Ë total 的 数据 有 重复 ,所 以 需要 进行 去 重 操作 ,这 里 选择 去 重 的 字段 为 total, 具 体 如 图 6-161 
所 示 。 


D ea 0888) =la "% 
DEER M-F (ARE 
am 
使 用 存储 的 记录 值 进行 比较 ? 加 

重 定 向 重复 记录 回 ttszisis | ° 

用 来 比较 的 字段 (没有 科目 意味 若 ; 比较 现在 完成 了 ) 

GESE] 

1 total 


图 6-161 “唯一 行 "控件 的 配置 
在 图 6-161 中 单 击 “确定 ?按钮 ,完成 “唯一 行 ?控件 的 配置 。 
9. 配置 “ 表 输 出 ”控件 


双击 图 6-143 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 ”界面 ,具体 如 图 6-162 所 示 。 

在 图 6-162 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连接 (所 连接 的 数据 库 transform 须 提 前 创 
建 ,这 里 不 蓉 述 ) ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数据 库 连接 的 配置 如 图 6-163 
所 示 。 

单 击 图 6-162 中 目标 表 右 侧 的 “浏览 ”按钮 ,指定 输出 目标 表 , 即 数据 表 regional_sales 
(该 表 须 提前 创建 ,这 里 不 演示 ); 勾 选 “ 指 定数 据 库 字 有 段 " 复 选 框 ,用 于 将 数据 表 regional 
sales 的 字段 与 “唯一 行 ”控件 输出 流 中 的 字段 进行 匹配 ,如 图 6-164 所 示 。 

单 击 图 6-164 中 的 “数据 库 字段 ”选项 卡 , 具 体 如 图 6-165 所 示 。 
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目标 表 


提交 记录 数量 1000 
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忽略 插入 错误 口 

指定 数据 库 字 段 加 


EREEE 


甫 分 区 数据 回 


[Onee] [mo | mo |[ sa] 


图 6-162 “ 表 输 出 "界面 


连接 名 称 : 
total 
连接 类 型 : e= 
MS Access z] ENER 
MS SQL Server localhost ° 
MS SQL Server (Native) 
MariaDB BEREM: 
MaxDB (SAP DB) transform ° 
MonetDB 本 本 
Native Mondrian 3306 hd 
Neoview : 
Netezza 了 
[lOvenERPSever | root ° 
连接 方式 : 密码 : 

ee ° 
= is Nac Susana mior 

[m JÜ ma J 


在 图 6-165 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,具体 如 图 6-166 


所 示 。 


在 图 6-166 中 依次 选中 * 源 字段 "中 的 字段 和 * 目 标 字段 "中 对 应 的 字段 ,再 单 击 Add 按 
钮 ,将 一 对 映射 字段 添加 至 “映射 " 框 中 , 若 * 源 字段 "中 的 字段 和 * 目 标 字段 "中 的 字段 相同 ， 
则 可 以 单 击 “ 猜 一 猜 ?按钮 ,让 Kettle 自动 实现 映射 ,用 于 将 数据 表 company_new 中 的 字段 
salesArea, total 与 目标 数据 表 中 的 字段 salesArea \total 进行 匹配 ,具体 如 图 6-167 所 示 。 

在 图 6-167 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 源 字段 ”与 “目标 字段 ”的 映射 匹配 。“ 表 输出 ” 控 


图 6-163 MySQL 数据 库 连接 的 配置 


件 配置 的 效果 图 如 图 6-168 所 示 。 
在 图 6-168 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 出 ”控件 的 配置 。 
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[as] [wn] waard..] 
pa * [xam] 
目标 表 regional sales 网 Ee 
提交 记录 数量 1000 
ans 回 
BRAE O 
指定 数据 库 字 段 团 
DER [BREF 
ADERE 
[f mem arm 
[Oses] [ao J wao J| sa |] | 
图 6-165 “数据 库 字段 "选项 卡 
P espa 
m+ 目标 字段 wa 
a RE Gss 
自动 和 摊 目 标 Ess28235 回 


隐藏 已 经 匹配 的 源 字 段 | 隐藏 已 经 匹配 的 目标 字 康 |Z) 


[ao J] so |[ wao | 


图 6-166 “映射 匹配 "对话 框 


r249- 


图 6-167 设置 映射 匹配 
GE] =[m| x J 
EZP mH 
数据 库 连 接 |total -| a) 
sms 出 一 
目标 表 regional sales ° (uae. 
提交 记录 数量 1000 ° 
asr 回 
忽略 插入 错误 O 
指定 数据 库 字 段 团 
+m masm 
插入 的 字段 : 
im wa [ansa] 
1 salesArea salesArea 
2 total total 


图 6-168 “ 表 输 出 "控件 配置 的 效果 图 
10. 运行 转换 total 


单 击 转换 工作 区 顶部 的 区 | 按钮 ,运行 创建 的 转换 total, 实 现 对 数据 表 company_new 中 
数据 进行 商务 规则 的 计算 ,从 而 得 出 手机 在 各 省 的 日 销售 额 , 并 存储 于 数据 表 regional_ 
sales 中 ,具体 如 图 6-169 所 示 。 

从 图 6-169 中 执行 结果 的 “步骤 度量 "可 以 看 出 ,“ 表 输入 "控件 输入 40 条 数据 并 写 人 该 
控件 ;字段 选 择 ” 控 件 从 “ 表 输 入 ”控件 中 读 取 40 条 数据 并 写 入 该 控件 ;计算 器 ”控件 从 “ 字 
段 选择 ”控件 中 读 取 40 条 数据 并 写 人 该 控件 ;排序 记录 ”控件 从 “计算 器 "控件 中 读 取 40 条 
数据 并 写 入 该 控件 ;“* 分 组 ”控件 从 “排序 记录 ”控件 中 读 取 40 条 数据 并 写 入 该 控件 ;“ 字 段 选 
FE 2” 控 件 从 “分 组 ”控件 中 读 取 40 条 数据 并 写 入 该 控件 ;* 唯 一 行 ( 喻 希 值 )”" 控 件 从 “字段 选 
FE 2” 控 件 中 读 取 40 条 数据 ,并 将 符合 要 求 的 14 条 数据 写 入 该 控件 ;“ 表 输出 ”控件 从 “唯一 

行 ( 喻 希 值 )" 控 件 中 读 取 14 条 数据 并 写 和 该 控件 ,最终 进行 输出 。 


11. 查看 数据 表 regional_sales 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 regional_sales 中 是 否 已 存储 各 省 份 的 手机 日 销售 额 数 
据 , 查 看 结果 如 图 6-170 所 示 。 


从 图 6-170 中 可 以 看 出 ,数据 表 regional_sales 中 已 经 存储 了 各 省 份 的 手机 日 销售 额 数据 。 
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(EZ total 3 


>- H Dl - @*@ tD BR FJ lo ~ 


ceee 


TAA FR Hss 排序 记录 分 组 字段 选择 2 。 唯一 行 ( 哈 希 值 ) 表态 出 | 


执行 结果 口 X 
Ë B= @ nane hS SEER |<: tas] [£ Metrics] dp Preview data| 


® 

BESI 下 E 5 O eu mm e me m 
1 SeA ° 0 4 40 0 0 0 0 Esse 

2 。 字段 选择 o 40 4 0 0 0 0 0 已 完成 

3 ”计算 器 0 4 40 0 0 0 0 0 已 完成 

4 ”排序 记录 o 40 4 0 0 0 0 0 已 完成 

5 分 组 0 4 40 0 0 0 0 0 已 完成 

6 ”字段 选择 2 0 4 4 0 0 0 0 0 已 完成 

7 ef ( 哈 希 值 ) 0 40 14 0 0 0 26 0 已 完成 

8 Tiat 0 14 14 0 14 0 0 0 已 完成 ~ 
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820266 
1357773 
335965 
457524 
210930 


451250 
345564 
527815 
197171 


图 6-170 数据 表 regional_sales 


6.5 ”本章 小 结 

本 章 主 要 讲解 数据 转换 的 相关 知识 ,包括 多 数据 源 合 并 、 不 一 致 数据 转换 .数据 颗粒 度 
的 转换 以 及 数据 的 商务 规则 计算 。 和 希望 读者 通过 本 章 的 学 习 . 可 以 掌握 数据 的 转换 操作 , 实 
现 将 企业 中 的 数据 进行 规范 化 处 理 。 


6.6 本 章 习 题 


到 是 数据 清洗 过 程 的 重要 步骤 之 一 。 
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2. 主要 是 将 不 同业 务 系统 中 的 相同 类 型 的 数据 进行 统一 。 
3. 一 般 情况 下 会 将 业务 系统 数据 按 数据 仓库 粒度 进行 聚合 ,这 个 过 程 被 称 为 š 


二 、 操 作 题 
现 有 一 个 文本 文件 personnel_data. txt, 包 含 字 段 id, name, id_number, household _ 
register 和 salary, 具 体内 容 如 下 所 示 。 


d name id_number household register salary 
zhangsan 110101199003074135 ”北京 市 600 
bob 110102200010250451 北京 市 500 
wangwu 120101199308198578 天 津 市 500 
zhaoliu 130102198809275932 石家庄 市 200 
sunqi ”310101199001207798 上 海 市 800 
rose 330102198610203149 杭州 市 500 
wujiu ”500101199210039242 ”重庆 市 300 
zhengshi 500101199110038661 重庆 市 200 
allen 140202199208066697 大 同市 300 

10 lisi 130201199603157822 ”唐山 市 ”200 

11 mary 370634198707208961 ”烟台 市 ”200 

12 daniel 430103198405258300 长 沙市 300 

13 lily 110105198501308898 ”北京 市 600 

14 zhouba 210302198410189892 鞍山 市 200 

15 william 310104199307038877 上 海 市 500 

16 amy 320102199412209710 ”南京 市 200 


通过 使 用 Kettle 工具 ,实现 以 下 功能 : 

(1) 对 文本 文件 personnel_data. txt 中 的 数据 进行 数据 粒度 的 转换 ,即将 文本 文件 
personnel_data. txt 中 字段 为 household_register 的 数据 统一 成 省 份 ,并 输出 到 文本 文件 
personnel_data_new. txt 中 。 

(2) 对 文本 文件 personnel_data_new. txt 中 字段 为 salary 的 数据 进行 商务 规则 计算 ， 
即 计算 每 个 人 的 月 薪 ( 以 22 天 工作 日 计算 ) ,最终 输出 到 文本 文件 personnel_data_monthly 


_salary. txt 中 。 
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数据 加载 


学 习 目 标 
(1) 熟悉 数据 的 增 量 加 载 


(2) 掌握 数据 的 全 量 加 载 
(3) 理解 数据 的 批 处 理 


数据 的 预 处 理 过 程 , 除 包括 数据 抽取 数据 本 身 的 清洗 与 检验 以 及 数据 转换 操作 外 ,还 
包括 数据 加 载 操作 。 数 据 加 载 是 数据 预 处 理 过 程 的 最 后 一 个 步骤 ,主要 负责 将 清洗 检验 、 转 
换 后 的 高 质量 数据 加 载 到 目标 数据 库 中。 本 章 将 针对 数据 加 载 的 相关 知识 进行 详细 讲解 。 


7.1 数据 的 加 载 机 制 


数据 的 加 载 机 制 与 数据 的 抽取 机 制 类 似 。 数 据 的 加 载 机 制 可 以 分 为 全 量 加 载 和 增 量 加 
载 。 其 中 ,全 量 加 载 是 指 将 目标 数据 表 中 的 数据 全 部 删除 后 进行 数据 加 载 的 操作 ;而 增 量 加 
载 是 指 目标 表 只 加 载 源 数据 表 中 变化 的 数据 ,包含 新 增 、 修 改 和 删除 的 数据 。 本 节 将 对 数据 
的 全 量 加载 和 增 量 加 载 进行 讲解 。 


7.1.1 全 量 加 载 


从 技术 角度 来 说 ,全 量 加载 比 增 量 加 载 的 操作 要 简单 很 多 , 即 只 需要 在 数据 加 载 之 前 将 
目标 数据 表 进 行 清空 ,再 将 源 数 据 表 中 的 数据 全 部 加 载 到 目标 表 中 。 

假设 有 两 张 数据 表 ,分 别 为 full_source 和 full_target, 其 中 full_source 为 源 数据 表 ,full 
_target 为 目标 数据 表 。full_source 和 full_target 的 具体 内 容 分 别 如 图 7-1 和 图 7-2 所 示 o 


P-B euil EE EI IE] | Y @ 回 限制 行 第 - 行 : [4] 0 P) 
[book_name a 
1| 小 王子 
2 解 忱 杂货 店 
3| 白 夜行 
4 梦 里 花 落 知 多 少 
s= x 


s m= 


图 7-1 数据 表 full_source 


下 面 通过 Kettle 工具 将 数据 表 full_source 中 的 数据 全 量 加 载 到 数据 表 full_target 中 ， 


图 7-2 数据 表 full_target 


具体 实现 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 full_load, 并 添加 “执行 SQL 脚本 ”控件 “ 表 输 入 "控件 “ 表 
输出 ?控件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 7-3 所 示 。 


SX full load & ] 
P oH DD e XOJA Æ 10% ~ 


执行 SQL 县 本 TAA Tah 


图 7-3 创建 转换 full load 


2. 配置 “执行 SQL 脚本 ”控件 
双击 图 7-3 中 的 “执行 SQL 脚本 ”控件 ,进入 “执行 SQL 语句 ”界面 ,如 图 7-4 所 示 。 


f! 执行 SQL 语句 Ee] 
DEER “执行 SQL 脚本 
wass ~ (ta) (t.s) [izara] 
SQL script to execute. (statements separated by ; ) Question marks will be replaced by arguments. 
4 , | 
行 1 列 0 
执行 每 一 行 ? 回 
Execute as a single statement F] 
saus f 
Bind parameters? E] 
Quote Strings? E) 
pn: 
£ 作为 参数 的 字段 
工 包含 插入 状态 的 字段 
包含 更 新 状态 的 字段 
包含 删除 状态 的 字段 
包含 读 状 态 的 字段 


图 7-4 “执行 SQL 语句 ”界面 
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在 图 7-4 中 单 击 “ 新 建 "按钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 


数据 库 连 接 的 配置 如 图 7-5 所 示 。 
as 
主机 名 称 : 
localhost ° 
数据 库 名 称 
load ° 
#05: 
3306 ° 
用 户 名 : 
root ° 
Ecos 
ee ° 
Use Result Streaming Cursor 
(ema | ws | 
Cm | ms | 


图 7-5 MySQL 数据 库 连接 的 配置 


在 图 7-4 的 SQL 框 中 编写 删除 数据 表 full_target 中 数据 的 SQL 语句 ,具体 如 图 7-6 所 示 。 


f: 执行 SQL 语句 = = 
DEER “执行 SQL 脚本 
ea ea - (==-Jisa-J wes] 
SQL script to execute. (statements separated by ; ) Question marks will be replaced by arguments. 
delete from full_target a 
4 上 
fialo 
执行 每 一 行 ? 
Execute as a single statement 
zaen- 
Bind parameters? 
Quote Strings? + 
SR: 
£ 作为 参数 的 字段 
1 包 全 插入 状态 的 字段 
包 会 更 新 状态 的 字段 
包 会 删除 状态 的 字段 
Samar 
Š [ meo | mo J smse 


图 7-6 编写 SQL 语句 


在 图 7-6 中 单 击 “确定 ”按钮 ,完成 “执行 SQL 脚本 ”控件 的 配置 。 
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3. 配置 “ 表 输 入 "控件 
双击 图 7-3 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 7-7 所 示 。 


EN 
DEZE mAN 
Ri [Fuod a [sas-] a 
ji 
SELECT <values> FROM <table name> WHERE <conditions> a 
. » = 
#1 列 0 
允许 简易 转 措 固 
E SQL 语句 里 的 变量 [PJ 
从 步 村 插入 数据 j=: 
执行 每 一 行 ? 加 
记录 数量 限制 0 ° 
[ez Cao ][ man J| mao ) 


图 7-7 “ 表 输 入 ”界面 
在 图 7-7 的 SQL 框 中 编写 查询 数据 表 full_source 数据 的 SQL 语句 ,然后 单 击 “ 预 览 ” 
按钮 ,查看 数据 表 full_source 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 表 输 入 流 中 ,具体 
如 图 7-8 和 图 7-9 所 示 。 


B, SAA lele = 


DEZ MAA 
BEER [Full load - 


SQL 
[SELECT *w FROM full_source 


. 
行 1 列 0 


允许 简易 转换 E 
ER SQL 语句 里 的 变量 回 
从 步骤 插入 数据 


i 
[Onee] Em ][ mam J| mao j 


图 7-8 编写 SQL 语句 


从 图 7-9 中 可 以 看 出 ,full_source 的 数据 已 经 成 功 从 MySQL 数据 库 中 抽取 到 表 输 入 
流 中 , 单 击 “ 关 闭 ”>“ 确 定 ” 按 钮 ,完成 “ 表 输入 "控件 的 配置 。 


4. 配置 “ 表 输 出 ”控件 


双击 图 7-3 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 ”界面 ,如 图 7-10 所 示 。 
单 击 图 7-10 中 目标 表 处 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 数据 表 full_target, 这 里 
不 需要 新 建 数据 库 连 接 , 在 数据 库 连 接 后 的 下 拉 列 表 中 选择 已 创建 的 数据 库 连 接 即 可 ,具体 


如 图 7-11 所 示 。 


Drams [= 
DE RAA 的 数据 (6 rows) 

|f| no bookname author tag Z 
1 1 小 王子 BRE 外 国文 学 

2 2 解忧 杂货 店 FES 小 说 

3 3 白夜 行 EIES 小 说 

4 4 #mzmuso Eci 小 涪 

5 5 看 见 = Rs 

6 6 Bè tes 小 涪 š 
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图 7-11 选择 目标 表 full_target 
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在 图 7-11 中 单 击 “确定 ”按钮 ,完成 “ 表 输 出 ”控件 的 配置 。 
5. 运行 转换 full_load 


单 击 转换 工作 区 顶部 的 加 按钮 ,运行 创建 的 转换 full_load, 实 现 将 数据 表 full_source 
中 的 数据 全 量 加 载 到 数据 表 full_target 中 ,具体 如 图 7-12 所 示 。 


(FE full Joad 吕 
P 7 H Dl ey 党 民 与 民 E 10% ~ 


车 一 一 一 时 一 人 | 
JAA 


执行 SQL 本 | 
< + 
执行 结果 Dx 
Ë B= (O nant [Z mman" |< eR] Í Metrics] ® Preview data] 
® 
GE g RADZA R 5 @MA Gh 更 新 Ee — mm 激活 
1 HSE 0 0 1 0 0 0 0 0 已 完成 
2 Wa 0 0 6 6 0 0 0 0 已 完成 
3 Wat 0 6 6 0 6 0 0 0 已 完成 


图 7-12 运行 转换 full load 


从 图 7-12 中 执行 结果 的 “步骤 度量 ?可 以 看 出 ,执行 SQL 脚本 "控件 写 入 1 条 SQL 语 
句 ;" 表 输入 "控件 输入 6 条 数据 ,并 写 人 该 控件 ;“ 表 输出 "控件 从 “ 表 输 入 "控件 中 读 取 6 条 
数据 ,并 写 人 该 控件 ,最 终 进行 输出 。 


6. 查看 数据 表 full_target 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 full_target 是 否 已 成 功 加 载 到 数据 ,查看 结果 如 图 7-13 
所 示 。 


a a | 5 t @ @ | Ez SI [Z | Y @ R 第 - 行 : 4] 0 


k 


| 小 三 于 
anaE 


parans 
sær 
6 图 城 


加 | 
加 
[sl 
[=] 3| 白 夜行 
[=] 
[sl 
[al 


图 7-13 数据 表 full_target 


从 图 7-13 中 可 以 看 出 ,数据 表 full_target 中 已 经 加 载 到 数据 ,说 明 我 们 成 功 实 现 了 将 
数据 表 full_source 中 的 数据 全 量 加 载 到 数据 表 full_target 中 。 


7.1.2 增 量 加 载 


增 量 加 载 是 指 目标 表 仅 加 载 源 数据 表 中 新 增 和 发 生变 化 的 数据 。 优 秀 的 增 量 加 载 机 制 
不 但 能 够 将 业务 系统 中 的 变化 数据 按 一 定 的 频率 准确 地 捕获 并 加 载 到 目标 表 中 ,同时 还 不 
会 对 业务 系统 造成 太 大 的 压力 ,也 不 会 影响 现 有 业务 。 
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假设 有 两 张 数据 表 ,分 别 为 incremental_source 和 incremental_target, 其 中 incremental 
_source 为 源 数据 表 ; incremental _target 为 目标 数据 表 。 数 据 表 incremental_ source 和 
incremental_target 的 表 结 构 数据 都 是 相同 的 ,具体 如 图 7-14 和 图 7-15 所 示 。 


[name = 
Isabella 2019-08-20 13:14:20 


(Jack 2019-08-20 13:14:21 
Nicholas 2019-08-20 13:14:22 
2019-08-20 13:14:23 
2019-08-20 13:14:24 


[name Jae | 


2019-08-20 13:14:20 


2019-08-20 13:14:21 
2019-08-20 13:14:22 
2019-08-20 13:14:23 
2019-08-20 13:14:24 


A 7-15 数据 表 incremental_target 


下 面 通过 Kettle 工具 将 数据 表 incremental _ source 中 的 数据 增 量 加 载 到 数据 表 
incremental_target 中 ,具体 实现 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 incremental_load, 并 添加 * 表 输入 ”控件 “插入 /更 新 ”控件 
以 及 Hop 跳 连 接线 ,具体 效果 如 图 7-16 所 示 。 


图 7-16 创建 转换 incremental_load 


2. 配置 “ 表 输 入 ”控件 


双击 图 7-16 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,具体 如 图 7-17 所 示 。 

在 图 7-17 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 7-18 所 示 。 

在 图 7-17 的 SQL 框 中 编写 查询 数据 表 incremental_source 数据 的 SQL 语句 ,然后 单 
击 “ 预 览 ” 按 钮 ,查看 数据 表 incremental_source 的 数据 是 否 成 功 从 MySQL 数据 库 中 抽取 到 
表 输 入 流 中 ,具体 如 图 7-19 和 图 7-20 所 示 。 

从 图 7-20 中 可 以 看 出 ,数据 表 incremental_source 的 数据 已 经 成 功 从 MySQL 数据 库 中 抽 
取 到 表 输 入 流 中 , 单 击 “ 关 闭 ”~“ 确 定 ” 按 钮 ,完成 “ 表 输 入 ”控件 的 配置 。 需 要 注意 的 是 ,Kettle 
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E, HAA [| = J 


EZR SAA 


S EE 


ISELECT <values> FROM <table name> WHERE <conditions> a 
1 


行 1 列 52 


° [Lazo J| mam J[ mo | 


图 7-17 “ 表 输 入 "界面 


目 数据 库 连 接 o] 
高 级 连接 名 称 : 
N Incremental load 
an Mesem: s. 
MS SQL Server (Native) > = 
MariaDB localhost ° 
MaxDB (SAP DB) 
wanaq 数据 库 名 称 : 
load ° 
Native Mondrian 
Neoview E sos: 
Netezza 3306 ° 
OpenERP Server E 
Bee BeZ: 
lOradeRDB — — — 7] root ° 
连接 方式 : = 
A ...... © 
Pe Use Result Streaming Cursor 
J 


图 7-18 MySQL 数据 库 连接 的 配置 
中 读 取 的 时 间 戳 格式 是 精确 度 为 毫秒 级 的 ,例如 yyyy/ MM/dd hh: mm; ss. SSSSSSSSS 格式 。 
3. 配置 “插入 /更 新 "控件 


双击 图 7-16 中 的 “插入 /更 新 "控件 .进入 “插入 /更 新 "界面 ,具体 如 图 7-21 所 示 。 

在 图 7-21 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 7-22 所 示 。 

单 击 图 7-21 中 目标 表 处 的 “浏览 ”按钮 ,弹出 “数据 库 浏览 器 "窗口 ,选择 目标 表 
incremental_target, 具 体 如 图 7-23 所 示 。 

在 图 7-23 中 单 击 “获取 字段 "按钮 ,用 来 指定 查询 数据 需要 的 关键 字 , 这 里 以 比较 数据 
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EL SAA 


DRZE FAA 


数据 库 连接 (Incremental Joad z EI Be.) 


SQL 


SELECT * FROM increnental_source 


行 1 列 0 
罗 许 简易 转换 回 
E sQ 语句 里 的 变量 加 


从 步 要 插入 数据 


执行 每 一 行 ? 器 


记录 数量 限制 0 


[aso |[ man |][ mao ] 


图 7-19 编写 SQL 语句 


2019/08/20 13:14:20.000000000 
2019/08/20 13:14:21.000000000 
2019/08/20 13:14:22.000000000 
2019/08/20 13:14:23.000000000 
2019/08/20 13:14:24.000000000 


Lao J mso set J 


7-21 “插入 /更 新 ”界面 


目 samt ES) 

ER 

Emi 

连接 邮 

== 设置 
主机 名 称 
localhost ° 
BERZI 
transform ° 
s03: 
3306 ° 
RPE: 
root ° 
z 


*..... 
Use Result Streaming Cursor 


° 


[ = ] 
[ C JC) 
图 7-22 MySQL 数据 库 连接 的 配置 
D 插入 /更 新 [= sz J 
DERE 插入 /更 新 
数据 库 连 接 [Incremental Joad - EE (Wizard...) 
iae * [puso] 
miam [incremental target | * pa 
提交 记录 数量 100 ° 
不 招行 任何 更 新 : 四 
用 来 查询 的 关键 字 : 
£ BR 。 比较 符 流 里 的 字段 1 。 流 里 的 字段 2 EE 
更 新 字段 : 
| EZ 
[ass] 
(Oner) Lao j wo |( sa] 
Æ 7-23 选择 目标 表 incremental_target 
表 incremental_target 的 字段 id 与 输入 流 里 的 字段 id 是 否 一 致 为 关键 条 件 , 更 新 数据 表 中 
的 其 他 字段 数据 ; 单 击 “ 获 取 和 更 新 字段 "按钮 ,用 来 指定 需要 更 新 的 字段 ,具体 如 图 7-24 


所 示 。 
在 图 7-24 中 单 击 “ 确 定 ” 按 钮 ,完成 “插入 /更 新 "控件 的 配置 。 
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3 == [= sz 
DRE A /更 新 
数据 库 连 接 [Incremental load 了 (S (FE [Wizarde 
目标 模式 ° 
目标 表 incremental target WES] 
提交 记录 数量 100 ad 
TREES: 回 
用 来 查询 的 关键 字 : 
£ aa 比较 符 流 里 的 字段 。。 流 里 的 字段 2 (ERFA | 
Bla lz du | 
更 新 字段: 
GESA Ara LLA 了 ER 
1|id id y 
2 |name name Ld 
3 | age ri 
4 | create_time create time Y >< 


图 7-24 配置 “插入 /更 新 "控件 


4. 修改 数据 表 incremental_source 中 的 数据 


在 数据 表 incremental_source 中 新 增 一 条 id 为 6 .name 为 Mary、age 为 23 的 数据 ;对 
数据 表 incremental_source 中 id 为 2 的 数据 进行 修改 ,即将 这 条 数据 的 年 龄 (age) 改 为 25。 
修改 后 的 数据 表 incremental_source 如 图 7-25 所 示 。 


Ol ol 


2019-08-20 13:14:22 
2019-08-20 13:14:23 
2019-08-20 13:14:24 


图 7-25 修改 后 的 数据 表 incremental_source 


5. 运行 转换 incremental_load 


单 击 转换 工作 区 项 部 的 回 按 钮 ,运行 创建 的 转换 incremental_load, 实现 将 数据 表 
incremental_source 中 的 数据 增 量 加 载 到 数据 表 incremental_target 中 ,具体 如 图 7-26 


所 示 。 

从 图 7-26 中 执行 结果 的 “ 步 又 度量 ”可 以 看 出 ,“ 表 输入 "控件 输入 6 条 数据 ,并 写 入 该 
控件 ;插入 /更 新 ”控件 从 “ 表 输 入 ”控件 中 读 取 6 条 数据 ,并 输入 、 写 入 到 该 控件 ,最 终 更 新 
并 输出 至 数据 表 incremental_target 中 。 也 就 是 说 ,数据 表 incremental_source 中 有 2 条 数 


[$X incremental load š 
b +H D. eñ 党 民 与 民 FJ 10% ~ 


到 给 入 插入 / 更 新 

4 » 
BX 

Ë B= [O nene E SEER | ee] [E Metrics] ® Preview data] 

® 

BEZA 复制 的 记录 行 数 。 读 5 &, Sh 。 更 新 Se 

1 JaA 0 0 6 6 0 0 0 

2 插入 /更 新 0 6 6 6 1 0 

| , 


图 7-26 运行 转换 incremental_load 
据 发 生 了 变化 ,并 将 变化 后 的 数据 加 载 到 了 数据 表 incremental_target 中 。 
6. 查看 数据 表 incremental_target 中 的 数据 


通过 SQLyog 工具 ,查看 数据 表 incremental_target 中 是 否 已 成 功 加 载 到 数据 ,查看 结 
果 如 图 7-27 所 示 。 


1|Isabella 18|2019-08-20 1: 
2 Jack 25|2019-08-21 1: 
3Nicholas 22 2019-08-20 13:14:22 
4 Jasmine 19 2019-08-20 13:14:23 
SlMia 20|2019-08-20 13:14:24 
S Mary 23 2019-08-20 13:14:25 


图 7-27 数据 表 incremental_target 


从 图 7-27 中 可 以 看 出 ,数据 表 incremental_target 中 已 经 加 载 到 数据 ,说 明 我 们 通过 
Kettle 工具 成 功 实现 了 将 数据 表 incremental _source 中 的 数据 增 量 加 载 到 数据 表 


incremental_target 中 。 


7.2 数据 的 批量 加 载 


通常 ,对 于 几 千 条 甚至 几 十 万 条 记录 的 数据 迁移 而 言 , 采 取 DML (数据 操纵 语言 ) 的 
INSERT 语句 能 够 很 好 地 将 数据 迁移 到 目标 数据 库 中 。 然 而 , 当 数 据 迁移 量 过 于 庞大 时 ， 
就 不 能 使 用 INSERT 语句 了 ,因为 执行 INSERT, UPDATE 以 及 DELETE 语句 的 操作 都 
会 生成 事物 日 志 , 事 物 日 志 的 生成 会 减 慢 加 载 的 速度 , 故 需要 针对 数据 采取 批量 加 载 操 作 。 

假设 有 一 个 CSV 格式 的 微 博 用 户 信息 文 件 weibo_user. csv, 其 中 包含 用 户 id .用户 名 
称 、 用 户 性 别 、 用 户 简 介 等 字段 。 文 件 weibo_user. csv 的 具体 内 容 如 图 7-28 所 示 ( 这 里 只 截 
取 了 部 分 数据 ) 。 

下 面 通过 Kettle 工具 将 文件 weibo_user. csv 中 的 数据 批量 加 载 到 数据 表 weibo_user 
中 ,具体 实现 步骤 如 下 。 


图 7-28 文件 weibo_user. csv 的 具体 内 容 


1. 打开 Kettle 工具 ,创建 转换 
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a B c D E F El 
user_id | user nane gender aessage post_nun follover_nun 
1041514813 janes1002 male 江宁 波 简介: 诚信 为 本 ， 站 的 高 才能 看 的 远 。 快 乐 开心 每 一 天 。 1557 1421 
1046222077 郑钧 male ERRIA 。 个 性 域名 : zhengjun 博客 地 址 : http://blog.s 1265 1280571 
1087770692 wale 简介 : 夏 失 己 道 ,， 莫 扰 他 心 。 — 个 性 域名 : chenkun 标签 4461 74798328 
1092538373 nale 下 足球 》 ， 最 纯 桩 的 足球 ， 最 高 级 的 享受 ! 播 出 时 间 : 每 周一 晚 19:: 1222 516668 
1114281232 nale 湖南 长 沙 。 简介 : 着 你 安 好 , 便 是 晴天 标签 “美女 333 199 
1155631071 female 5 无 来 者 的 帮派:http://t. cn/8kIOtCF 欢 迎 乱 入 ! 参 团 加 旺旺 18 群 : ” 10959 17399 
1165712932 female $) (爱情 二 十 年 ) (东方 朔 ) ( 别 拿 自己 不 当 干 部 ) (四 世 同 堂 ) (大 时 代 ) 5221 22572 
1195210033 male @tongdaveistudio. con _ 个 性 域名 : tongdawv 博客 地 址 : — 2668 16748591 
1195264701 fenale 。 北京 东城 区 ”12 月 16 日 ”简介 : 可 爱 温柔 的 幼儿 603 141 
1197106530 nale 四 川 宜宾 。 1987 年 2 月 3 日 3890 305 
1197161814 male 1961 年 12 月 3 日 ”简介 : 创新 工场 CE0， 媒 体 联系 : pressëchuangs 13970 50965446 
1212812142 male ang626 博客 地 址 : http://blog. sina. com. cn/wenzhang626 2213 55260225 
1223178222 male 完 简介: 一 呼吸 一 天 地 MERE: huge _ 博客 地 址 : h 2945 29063431 
1223237202 nale 经 济 学 家 、 东 南大 学 教授 。 博客 地 址 : http://blog. sina. con. c 858 451808 
1223762662 female 98gnail. con ”个 性 域名 : linxinru 。 博客 地 址 : http://bl 6052 59348268 
1226318347 nale 人 ， 为 父母 们 提供 科学 的 育儿 经 验 。Q: 1278417449 ME 育儿 1354 1003824 
1228486722 fenale SAROERRILFE MHRA: wangluodan — 博客 地 址 : h 1859 34538704 
1230663070 Ea female 个 性 域名 : tangyan — 博客 地 址 : http://blog. sina. com.cn, 2470 29440315 
1234552257 成 龙 male echan. con 个 性 域名 : jackiechan 博客 地 址 ; http://bl _765 24246519 
1 站 


使 用 Kettle 工具 创建 转换 batch_load, 并 添加 “CSV 文件 输入 ”控件 “ 表 输 出 ”控件 以 
及 Hop 跳 连 接线 ,具体 效果 如 图 7-29 所 示 。 


JZ batch load £ 
b +H D eO XQJA 时 10% ~ 


B > 图 


CSV 文 件 输入 mah 


图 7-29 创建 转换 batch_load 


2. 配置 “CSV 文件 输入 ”控件 


双击 图 7-29 中 的 “CSV 文件 输入 ”控件 ,进入 “CSYV 文件 输入 ”界面 ,具体 如 图 7-30 


所 示 。 


在 图 7-30 中 的 “文件 名 ”处 单 击 “ 浏 览 ” 按 钮 ,选择 要 抽取 的 CSV 文件 weibo_user. csv; 
单 击 * 获 取 字段 "按钮 ,让 Kettle 自动 检索 CSV 文件 ,并 对 文件 中 字段 的 类 型 .格式 ,长 度 、 
精度 等 属性 进行 解析 ,具体 效果 如 图 7-31 所 示 。 
在 图 7-31 中 单 击 “ 预 览 ” 按 钮 ,查看 CSV 文件 weibo_user. csv 的 数据 是 否 抽取 到 CSV 
文件 输入 流 中 ,具体 效果 如 图 7-32 所 示 。 
从 图 7-32 中 可 以 看 出 ,文件 weibo_user. csv 的 数据 已 经 成 功 抽取 到 CSV 文件 输入 流 
中 , 单 击 “ 关 闭 ”-~“ 确 定 ?按钮 ,完成 <CSV 文件 输入 "控件 的 配置 。 


3. 配置 “ 表 输 出 ”控件 
双击 图 7-29 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 ”界面 ,具体 如 图 7-33 所 示 。 


265 


266 数据 清洗 


P. CSV XEHEA lele 


图 7-30 “CSV 文件 输入 ”界面 


P. CSV 文件 给 入 [= p3 


DERE CSV 文 件 输入 

[Eeeednnpeeepwsbeweerer] | U * [xae=] 

: * aasman) 
° 


文件 名 
列 分 隔 符 


NIO FJ] 50000 ° 


Haua wn eii 


图 7-31 配置 “CSV 文件 输入 ”控件 


在 图 7-33 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 7-34 所 示 。 

单 击 图 7-33 中 目标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 数据 表 weibo_user( 该 
表 须 提前 创建 , 且 表 结构 须根 据 文件 weibo_user. csv 中 数据 的 字段 和 数据 类 型 创建 ,这 里 
不 演示 ); 勾 选 “ 指 定数 据 库 字 段 " 复 选 框 ,用 于 将 数据 表 weibo_user 的 字段 与 文件 weibo_ 
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lele, z J 


DE CSV 文 件 输入 的 数据 (99 rows) 


userid 
1041514813 
1046222077 
1087770692 
1092538373 
1114281232 
1155631071 
1165712932 
1195210033 
1195264701 
10 1197106530 
11 1197161814 
12 1212812142 
13 1223178222 
14 1223237202 
15 1223762662 
16 1226318347 
17 1228486722 
18 1230663070 
19 1234552257 
20 1235527153 
21 1249193625 


ell 


user_name 


james1002 


message 
浙江 宁波 简介 : 诚信 为 本 ， 站 的 高 才能 看 的 远 。 快 … 
北京 东城 区 简介 : 目 把 悲歌 欢 喝 。 个 性 域名 zhen.. 
重庆 简介 : 莫 失 已 道 ， 莫 拓 他 心 。 个 性 域名 : ch.. 
简介 : 《天 下 足球 》 ,最 纯 入 的 足球 ， 最 高 级 的 享受 
湖南 长 沙 简介 : 若 你 安 好 , 便 是 晴天 ”标签 美女 
海外 其 他 TEP WFE 简介 : 方便 得 前 无 古人 一 
北京 朝阳 区 ”毕业 于 PARAF FFE 简介 .… 
北京 东城 区 简介 : 任何 业务 请 与 我 的 经 纪 人 联系 ，.… 
北京 东城 区 12 月 16 日 简介 : 可 要 温柔 的 幼儿 园 老 ~ 
四 川 宣 宾 “1987 年 2 月 3 日 
北京 东城 区 ”公司 创新 工场 ”1961 年 12 月 3 日 f.. 
北京 朝阳 区 个 性 域名 : wenzhang626 ”博客 地 址 … 
上 海 符 C 区 ”毕业 于 上 海 戏剧 学 院 SS: 一 呼吸 
其 他 简介 : 经 济 学 家 、 东 南大 学 教授 博客 地 址 : .. 
台湾 简介 : 工作 联 皮 ~lisa 潭 小 旭 tanlisa0829@gm.… 
FEFE 5 月 1 日 简介 : 专业 的 育儿 智 寄 团 队 ，… 
简介 : 博 主 鹤 在 这 实 号 胡 网 ， 正 经 事 清 找 @ 王 .… 
HS 简介 : lovetiffanytang@foxmailcom 糖 糖 TIF… 
简介 : 所 有 业务 及 道 请 ， 请 联系 : jcgroup@ja.… 
其 他 1980 年 6 月 8 日 简介 : 陌路 想 活 ,以 文 会 友 ; 一 
上 海 黄浦 区 1975 年 5 月 16 日 ”简介 : 官网 www.fpa.… 


Postnum follower-num ^ 


1557 


1421 
1280571 
74798328 
516668 
199 
17399 
22572 
16748591 
141 
305 
50965446 
55260225 
29063431 
451808 
59348268 
1003824 
34538704 
29440315 
24246519 
31396 
41915592 _ 7 


图 7-32 预览 数据 


提交 记录 数量 1000 
ass n 

DRAE O 

指定 数据 库 字 段 加 


ET Er 


表 分 区 数据 回 


[Oe] [æo J| mao |[ s J 


图 7-33 “ 表 输 出 ”界面 


user. csv 中 的 字段 进行 匹配 ; 勾 选 “使 用 批量 插入 ” 复 选 框 ,用 于 批量 加 载 数 据 至 目标 表 中 ， 

具体 如 图 7-35 所 示 。 
在 图 7-35 中 选择 “数据 库 字 段 ?选项 卡 ,具体 如 图 7-36 所 示 。 
在 图 7-36 中 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,具体 如 图 7-37 所 示 。 
在 图 3-37 中 依次 选中 “ 源 字段 "中 的 字段 和 “目标 字段 ”中 的 字段 ,再 单 击 Add 按钮 ,将 


B marts 
高 级 ERER 
= Bacios8 
== 连接 类 型: lu 
MS Access g n — — 
MS SQL Server localhost ° 
MS SQL Server (Native) É 
MariaDB DR 
MaxDB (SAP DB) load ° 
Native Mondrian 3306 ° 
Li RPE: 
Netezza 
OpenERP Server 7| root ° 
连接 方式 : =ë: 
>>> 9 
P= Use Result Streaming Cursor 
É J 
图 7-34 MySQL 数据 库 连接 的 配置 
EN AOR 
步 机 名 称 ” 表 输出 
sisa, — [s=] a=] wass] 
目标 模式 * [ws] 
sss == ] o [az 
提交 记录 数量 1000 o 
ans A 
TEAR O 
指定 数据 库 字 银 园 
HENN MEEF) 
表 分 区 数据 回 
anre -0 
每 个 月 分 区 数据 @ 
每 天 分 区 数据 E 
使 用 批量 插入 回 


图 7-35 ”指定 输出 的 目标 表 


一 对 映射 字段 添加 至 映射" 框 中 ,车 “ 源 字段 "中 的 字段 和 “目标 字段 ”中 的 字段 相同 , 则 可 以 
单 击 “ 猜 一 猜 ” 按 钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 7-38 所 示 。 


在 图 7-38 中 单 击 “ 映 射 匹 配 ” 对 话 框 中 的 “确定 ”按钮 ,“ 表 输出 ”控件 的 配置 效果 如 
图 7-39 所 示 。 


在 图 7-39 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 出 ”控件 的 配置 。 
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EE] 


HEZE SeH 
SREE iia ~ (ma) (2) (Wizara) 
目标 模式 © iesea) 
EE 
° 


目标 表 weibo_user ° 
提交 记录 数量 1000 

ass 回 
名 略 插 和 错误 O 
指定 数据 库 字 银团 


DER mgm+a 


图 7-36 “数据 库 字 段 " 选 项 卡 


userid --> user jd 
user_name --> user_name 
gender --> gender 

message --> message 

I| | post num --> post num 
follower_num --> follower num 


7-38 ”设置 映射 匹配 


4. 运行 转换 batch_load 


单 击 转 换 工 作 区 顶部 的 号 按钮 ,运行 创建 的 转换 batch_load, 实 现 将 CSV 文件 weibo_ 


user. csv 中 的 数据 批量 加 载 到 数据 表 weibo_user 中 ,具体 如 图 7-40 所 示 。 
从 图 7-40 中 执行 结果 的 “步骤 度量 ?可 以 看 出 “CSYV 文件 输入 ”控件 输入 100 条 数据 ， 


2⁄0 数据 清洗 
EE-E] [= s= 
HEER Fad 
PEE DER ad 了 [Eeeda 
目标 楼 式 © sce] 
er label ME 
提交 记录 数量 1000 ° 
ass 回 
忽略 插入 错误 O 
ETSER PR M 
主 选项 | 数据库 字段 
插入 的 字段 : 
| are ED 
1 userid user_id 
Be sss EX 
3 gender gender 
4 message message 
5 post num post num 
6 follower_num follower num - 
图 7-39 “ 表 输 出 "控件 的 配置 效果 
[EX batch load 57 


b r l Dl p iy XJR E 10% ~ 


可 | 


F 
执行 结果 口 X 
Ë 日志 [ 回 neneh mms. |< 性 能 加 | Ë Metrics] dp Preview data] 

® 

£ DEER 复制 的 记录 行 数 È 5 @A GH 更 新 Ee 错误 ms 

1 “CSV 文 件 输入 0 0 99 100 0 0 0 0 已 完成 

2 Wat 0 99 99 0 99 0 0 0 已 完成 
JI rr | 


图 7-40 运行 转换 batch load 


写 人 该 控件 99 条 数据 (1 条 表 头 数据 未 写 信 );“ 表 输出 ”控件 从 “CSYV 文件 输入 ”控件 中 读 取 
99 条 数据 ,并 写 人 该 控件 ,最 终 进行 输出 。 


5. 查看 数据 表 weibo_user 中 的 数据 


所 示 。 


通过 SQLyog 工具 .查看 数据 表 weibo_user 是 否 已 成 功 加 载 到 数据 ,查看 结果 如 图 7-41 


从 图 7-41 中 可 以 看 出 ,数据 表 weibo_user 中 已 经 加 载 到 数据 ,说 明 我 们 通过 Kettle 工 
具 成 功 实 现 了 将 CSV 文件 weibo_user. csv 中 的 数据 批量 加 载 到 数据 表 weibo_user 中 。 
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ee lees [Post nun| fol1oner nun + 
[Dl 1041514813|james1002 [male ”| 浙江 宁波 简介 : 诚信 为 本 ， 站 的 高 才能 看 的 远 .| 1557 1421 
[L] 1046222077 郑钧 male ”| 北京 东城 区 fat: 且 拒 悲歌 欢 唱 。 个 性 域名 : | 1265 1280571 
[L] 1087770692 陈坤 male ”| 重庆 简介: AROW., AHi. 个 性 域名 | 4461 74798328 
IO 1092538373 CCV R FÆ male fft (RFE). RARHER. masta 1222 516668 
|D] 1114281232 4482589 male ”| 潮 南 长 沙 简介 : 若 你 安 好 ， 便 是 晴天 标签 | 333 199 
[D] 1155631071 若水 团 female | 海外 其 他 ”恋爱 中 狮子座 fft: 方便 得 前 10959 17399 
[D] 1165712932 演员 王 澜 female | 北京 朝阳 区 毕业 于 ”中央 戏剧 学 院 RAS 5221 22572 
[D] 1195210033 佟大为 male ”| 北京 东城 区 ” 简介 : 任何 业务 请 与 我 的 经 纪 人 联 引 2668| 16748591 
Enana - female | 北京 东城 区 ”12 月 16 日 ”简介 : THERN = 262 
|D] 1197106530 baby 饼 良 male IE% 。 1987 年 2 月 3 日 3890 305 
[D] 1197161814 李开复 male ”| 北京 东城 区 AT 创新 工场 — 1961 年 12 月 3f| 13970| 50965446 
[D] 1212812142 | 文章 同 学 male “| 北京 朝阳 区 个 性 域名 : wenzhang626 博客 让 2213 55260225 
|D] 1223178222| 胡 歌 male “| 上海 徐汇 区 毕业 于 ”上海 戏剧 学 院 人 简介: | 2945 29063431 
[Eana 华 生 2010 male ”| 其 他 ”简介 : 经 济 学 家 、 东 南大 学 教授 ”博客 地 | 858 451808 

1223762662| 林 心 如 female | 台湾 简介 : T.frNR3SF-1isaiE j #Etanlisa0e29€ 6052| 59348268 
[D] 1226318347| 言 儿 专 家 大 百 male ”| 天 津 和 平 区 ”5 月 1 日 ”简介 : 专业 的 育儿 知春 团 — 1354 1003824 
[Di 1228486722 £37} female | 北京 ” 简介 : GERERE. EESW) 1859 34538704 
ee B5 female | 上 海 ff: lovetiffanytang@üfoxmail.comfsfe 2470 29440315 
IO | 1234552257 sz; male ”| 北京 ”简介 : 所 有 业务 及 邀请 ， 请 联系 : icqrour| 765 24246519 ” 


7.3 本 章 小 结 


图 7-41 数据 表 weibo_user 


本 章 主要 讲解 数据 加 载 的 相关 知识 ,包括 数据 的 全 量 加 载 , 增 量 加 载 以 及 批量 加 载 。 和 希望 
读者 通过 本 章 的 学 习 , 可 以 掌握 数据 的 全 量 加 载 , 增 量 加 载 以 及 批量 加 载 的 操作 ,实现 将 企业 
中 清洗 检验 、 转 换 后 的 高 质量 数据 加 载 到 目标 数据 库 中 ,便于 后 续 进 行 数据 分 析 和 数据 挖掘 。 


7.4 本 章 习 题 


一 、 填 空 题 
1. 数据 的 加 载 机 制 可 以 分 为 和 增 量 加 载 。 
2. 增 量 加 载 是 指 目标 表 仅 加 载 源 数据 表 中 的 数据 。 


3， 当 数据 迁移 量 过 于 庞大 时 ,需要 针对 数据 采取 


二 、 操作 题 


操作 。 


1. 现 有 两 张 数 据 表 ,分 别 为 full_source 和 full_target, 其 中 full_source 为 源 数据 表 ,full_ 
target 为 目标 数据 表 。 数 据 表 full_source 和 full_target 分 别 如 图 7-42 和 图 7-43 所 示 。 


pz 


小 说 


小 说 


小 说 


ar 
ms 


小 说 


随笔 


图 7-42 数据 表 full_source 


图 7-43 数据 表 full target 


通过 使 用 Kettle 工具 ,实现 将 数据 表 full_source 中 的 数据 全 量 加 载 到 数据 表 full_ 
target 中 。 

2. 现 有 两 张 数据 表 , 分别 为 incremental _ source 和 incremental target, 其 中 
incremental_source 为 源 数据 表 ,incremental_target 为 目标 数据 表 。 数 据 表 incremental_ 
source 和 incremental_target 的 表 结构 .数据 都 是 相同 的 ,具体 如 图 7-44 和 图 7-45 所 示 。 


2019-08-20 13:14:21 
Nicholas |2019-08-20 13:14:22 
Jasmine 2019-08-20 13:14:23 


_3Nicholas — 
Jasmine 2019-08-20 1: 


Mia 2019-08-20 13:14:24 


图 7-45 数据 表 incremental_target 


通过 使 用 Kettle 工具 ,实现 将 数据 表 incremental_source 中 的 数据 增 量 加 载 到 数据 表 
incremental_target 中 ,即将 数据 表 incremental_source 中 新 增 、 变 化 的 数据 加 载 到 数据 表 
incremental_target 中 。 

QE: 新 增 数 据 ,在 数据 表 incremental_source 中 新 增 一 条 id 为 6 ,name 为 Mary \age 为 
23 的 数据 ;变化 数据 ,修改 数据 表 incremental_source 中 id 为 2 的 数据 ,将 该 条 数据 的 age 
值 改 为 25) 。 
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综合 案例 一 一 构建 DVD 租赁 商店 数据 仓库 


学 习 目标 

(1) 了 解数 据 库 sakila 中 的 数据 表 

(2) 理解 数据 仓库 sakila_dw 的 架构 设计 

(3) 熟悉 DVD 租赁 商店 的 业务 流程 

(4) 掌握 构建 DVD 租赁 商店 数据 仓库 的 具体 实现 


sakila 样本 数据 库 是 MySQL 官方 提供 的 一 个 模拟 DVD 租赁 商店 管理 的 数据 库 。 本 
章 将 综合 运用 前 面 几 章 的 知识 ,对 数据 库 sakila 中 的 数据 进行 清洗 操作 ,从 而 构建 一 个 
DVD 租赁 商店 数据 仓库 系统 , 即 实现 定期 从 源 数 据 库 sakila 中 抽取 增 量 数据 ,转换 成 符合 
DVD 租赁 业务 的 数据 ,最 后 加 载 到 目标 数据 仓库 中 。 


8.1 案例 概述 


8.1.1 案例 背景 介绍 


在 日 益 激 烈 的 商业 竞争 中 ,在线 DVD 租赁 商店 的 决策 者 都 迫切 需要 更 加 准确 的 经 营 
决策 信息 。 每 个 在 线 DVD 租赁 商店 的 数据 都 存储 在 数据 库 中 ,因此 该 数据 库 中 拥有 海量 
数据 ,不 缺乏 足够 的 信息 ,但 是 这 些 数 据 并 不 是 经 营 决策 需要 的 信息 。 虽 然 这 些 海量 数据 对 
FER DVD 租赁 商店 的 运作 非常 有 用 ,但 是 对 于 商业 的 战略 决策 和 目标 制定 的 作用 是 微 
平 其 微 的 。 

对 于 在 线 DVD 租赁 商店 的 决策 者 来 说 ,他 们 需要 从 多 个 不 同 的 商业 角度 观察 数据 ,如 
从 时 间 电影、 演员 .用户 等 角度 观察 数据 ,并 进行 相关 的 分 析 得 出 决策 ,但 是 数据 库 中 的 数 
据 不 适合 从 多 个 角度 进行 分 析 ,无 法 得 出 战略 决策 。 然 而 .数据 仓库 支持 复杂 的 分 析 操 作 ， 
侧重 于 决策 支持 ,并 且 还 提供 直观 易 懂 的 查询 结果 ,因此 我 们 需要 基于 数据 库 sakila 创建 一 
个 DVD 租赁 商店 数据 仓库 ,并 将 sakila 数据 库 中 的 数据 加 载 到 数据 仓库 中 ,以 便于 在 线 
DVD 租赁 商店 的 决策 者 对 数据 进行 分 析 得 出 商业 决策 。 


8.1.2 数据 仓库 的 架构 模型 


下 面 通过 一 张 图 描述 DVD 租赁 商店 数据 仓库 sakila_dw 的 架构 模型 ,具体 如 图 8-1 
所 示 。 
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Ë film_key 
film_last_update 
film_title 
film_description 
film_release_year 
film_language 
film_original_Ianguage 
film_rental_duration 
film_rental_rate 
film_duration 
film_replacement_cost 
film_rating_code 
film_rating_text 
film_has_trailers 
film_has_commentaries 
film_has_deleted_scenes 
film_has_behind_the_scenes 


film_in_category_action 
film_in_category_animation 
film_in_category_children 
film_in_category_classics 
film_in_category_comedy 
film_in_category_documentary 


film_in_category_drama 


film_in_category_family 
film_in_category_foreign 
film_in_category_games 
film_in_category_horror 
film_in_category_music 
film_in_category_new 
film_in_category_scifi 
film_in_category_sports 


film_in_category_travel 
film_id 


月 actor_key 
actor_last_update 
actor_last_name 
actor_first_name 


customer_country 
customer_version_number 
customer_valid_from 
customer_valid_through 


store_version_number 
store_valid_from 
store_valid_through 


月 staff_key 
staff_last_update 
staff_first_name 
staff_last_name 


staff_id 
staff_store_id 
staff_version_number 
staff_valid_from 
staff_valid_through 
staff_active 


月 date_key 
date_value 
date_short 
date_medium 
date_long 
date_full 
day_in_year 
day_in_month 
is_first_day_in_month 
is_last_day_in_month 
day_abbreviation 


month_number 
month_abbreviation 
month_name 

year2 

year4 

quarter_name 
quarter_number 
year_quarter 
year_month_number 
year_month_abbreviation 


W R Hü vs. 
月 time_key 
time_value 


hours24 
hours12 
minutes 
seconds 
am_pm 


图 8-1 数据 仓库 sakila_dw 的 架构 模型 


从 图 8-1 中 可 以 看 出 ,数据 仓库 sakila_dw 的 架构 模型 是 一 个 星 形 模型 ,其 中 dim_film 
K .dim_customer 表 .dim_actor 表 .dim_store 表 .dim_staff 表 .dim_date 表 .dim_film_actor 


_bridge 表 以 及 dim_time 表 均 为 维度 表 ;fact_rental 表 为 事实 表 。 


8.1.3 数据 仓库 效果 预览 


通过 Kettle 工具 ,将 sakila 数据 库 中 的 数据 加 载 至 sakila_dw 数据 仓库 中 。 数 据 仓库 
sakila_dw 中 的 维度 表 和 事实 表 中 的 部 分 数据 ,具体 如 图 8-2 一 图 8-9 所 示 。 
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2006-02-15 
403 2006-02-15 
404|2006-02-15 
405|2006-02-15 
406|2006-02-15 
407|2006-02-15 
408 2006-02-15 
409|2006-02-15 
2006-02-15 


4792|2006-02-15 04:57:20 S98 WADE — DELVALLE 
4793|2006-02-15 04:57:20 S99 AUSTIN [CINTRON 
4790|2006-02-15 04:57:20 S96 ENRIQUE (FORSYTHE 
4789|2006-02-15 04:57:20 595 TERRENCE |GUNDERSON 


4786|2006-02-15 04:57:20 592 TERRANCE ROUSH 
4787|2006-02-15 04:57:20 593 RENE MCALISTER 

4788|2006-02-15 04:57:20 594 EDUARDO HIATT 

4785|2006-02-15 04:57:20 591 KENT IARSENAULT hd 


20091227 2009-12-27 12/27/09 Sunday, December 27, 20( 
20091226 2009-12-26 12/26/09 Dec 26, 2009 December 26, 2009 Saturday, December 26, ; 
20091225 2009-12-25 12/25/09 Dec 25, 2009 December 25, 2009 Friday, December 25, 20( 
20091224 2009-12-24 12/24/09 Dec 24, 2009 December 24, 2009 Thursday, December 24, ; 
20091223 2009-12-23 12/23/09 + 
20091222 2009-12-22 12/22/09 Dec 22, 2009 December 22, 2009 Tuesday, December 22, 2( 
20091221 2009-12-21 12/21/09 Dec 21, 2009 December 21, 2009 Monday, December 21, 20( 
20091220 2009-12-20 12/20/09 Dec 20, 2009 Sunday, December 20, 20( =| 


93B 
[TRAMP OTHERS A Brill 87B 2006 English Not A 
[TRAINSPOTTING STIA Fast-... 90B 2006|English Not A 
[TRAIN BUNCH 90B 2006 English Not A 
[TRAFFIC HOBBIT 102B | 2006|English Not A 
2902 2006-02-15 TRADING PINOCCHII 117B | 2006 English Not A 
2901|2006-02-15 [TRACY CIDER 101B | 2006|English Not A 
2900|2006-02-15 05:03:42 TOWN ARK 98B | 2006 English Not A 
2899 2006-02-1S 05:03:42 TOWERS HURRICANE 25B 2006 English Not A ~| 


图 8-5 维度 表 dim film 中 的 数据 


2906|2006-02-15 0: 
2905|2006-02-15 0: 
2904|2006-02-15 0: 
0: 
0: 
0: 


2903 2006-02-15 


1001 230 0.20 
1001 253 0.20 
1001 362 0.20 
1001 398 0.20 
1002 285 0.50 
1002 360 0.50 
1003 219 0.33 
1003 264 0.33 
1004 241 0.50 ~ 


图 8-6 维度 表 dim_film_actor_bridge 中 的 数据 


数据 清洗 
16|1970-01-01 00:00 (NULL) (NULL) (NULL) (NULL) 1 (NULL) 3 
| 14|1970-01-01 00:00Mike lHillyer 1 1 1|1900-01-| 
| 13|1970-01-01 00:00| (NULL) (NULL) (NULL) (NULL) 1| (NULL) 
(Ruto) 1970-01-01 00:00 (NULL) (NULL) (NULL) | (NULL) (NULL) (NULL) | 
S 20050529 20050602 210032 1| 1 324900 2006-02-15 
4 20050529| 20050607| 210722 1| 1|702900|2006-02-15 
S 20050529 20050604 213112 1 1 523080 2006-02-15 + 
图 8-9 事实 表 fact_rental 中 的 数据 
8.2 数据 准备 


8.2.1 数据 库 sakila 的 下 载 和 安装 


可 以 从 MySQL 的 官网 下 载 数据 库 sakila 的 建 库 脚 本 ,若是 在 Windows 环境 下 安装 数 
HJE sakila, 则 下 载 名 称 为 sakila-db. zip 的 压缩 包 文件 ;若是 在 Linux 环境 下 安装 数据 库 
sakila, 则 需要 下 载 名 称 为 sakila-db. tar. gz 的 压缩 包 文件 。 

本 书 下 载 的 是 名 称 为 sakila-db. zip 的 压缩 包 文件 ,该 压缩 包 文件 中 包含 3 个 文件 ,分 别 
是 文件 sakila. mwb、 文 件 sakila-data. sql 和 文件 sakila-schema. sql。 其 中 ,文件 sakila. mwb 
是 一 个 MySQL Workbench 数据 模型 ,用 于 查看 数据 库 结 构 ; 文 件 sakila-data. sql 是 用 于 创 
建 数据 库 sakila 的 数据 ;文件 sakila-schema. sql 是 用 于 创建 数据 库 sakila 的 数据 结构 。 

数据 库 sakila 下 载 完 成 后 , 直接 解压 压缩 包 , 然 后 使 用 MySQL 图 形 化 管理 软件 
SQLyog 先 运行 脚本 文件 sakila-schema. sql 创建 数据 库 sakila 和 数据 表 , 再 运行 脚本 文件 
sakila-data. sql 向 数据 库 sakila 中 的 数据 表 加 载 数据 ,最 后 刷新 并 查看 数据 库 sakila 中 的 数 
据 表 及 数据 表 中 的 数据 , 若 数据 表 中 均 含 有 数据 , 则 说 明 安装 数据 库 sakila 成 功 ,否则 说 明 
安装 不 成 功 ,需要 重新 解压 安装 。 

需要 注意 的 是 ,安装 数据 库 sakila 之 前 需要 下 载 并 安装 MySQL 关系 型 数据 库 , 并 且 版 
本 不 可 低 于 5.0, 本 书 使 用 的 是 MySQL 8. 0. 16 版 本 。 关 于 MySQL 数据 库 的 下 载 安装 ,这 
里 不 作 详 细 介 绍 ,读者 可 自行 下 载 安装 。 


8.2.2 数据 库 sakila 简介 
数据 库 sakila 中 一 共 含 有 16 张 数 据 表 ,分 别 是 actor (演员 ) 表 、address (地 址 ) 表 、 
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category( 类 别 ) 表 city RM) X country HX) K customer MA) R film( 电 影 ) 表 film_ 
actor( 演 员 所 属 电影 ) 表 、film_category( 电 影 所 属 的 类 别 ) 表 、film_text( 电 影 描述 ) 表 、 
inventory( 库 存 ) 表 language( 语 言 ) 表 .payment( 付 款 ) 表 rental (HR) K 、staff( 工 作 人 员 》) 
表 以 及 store( 商 店 ) 表 ,这 16 张 表 在 设计 上 有 一 些 相同 之 处 ,具体 如 下 。 

。 每 张 数 据 表 都 有 自 增 主键 列 , 列 名 采用 “ 表 名 _id” 的 格式 命名 。 

° 每 张 数据 表 的 外 键 约 东 都 引用 主键 ,外 键 的 名 称 与 主键 的 名 称 相同 。 

+ 每 张 数据 表 中 均 有 一 个 名 称 为 last_update 的 列 , 数 据 类 型 为 TIMESTAMP( 时 间 

截 ) ,主要 用 来 记录 增加 或 更 新 数据 时 的 时 间 。 
下 面 通过 一 张 图 描述 数据 库 sakila 中 数据 表 之 间 的 关系 ,如 图 8-10 所 示 。 


# country_id 
country 
last_update 


original_language_id 
rental_duration 
rental_rate 

length 
replacement_cost 
rating 
special_features 
last_update 


月 inventory_id 
film_id 
store_id 
last_update 


| 
Ê rental_id 
rental_date 
inventory_id 
customer_id 
return_date |1 


staff_id 
last_update |== 


图 8-10 ”数据库 sakila 中 数据 表 之 间 的 关系 


在 图 8-10 中 ,为 了 便于 了 解数 据 库 sakila 中 16 张 数据 表 的 主 从 关系 ,可 以 将 数据 表 进 
行 分 类 ,分 为 电影 类 、 商 店 类 、 客 户 类 以 及 区 域 类 .其 中 电影 类 数据 表 包 含 film X, file 
category 表 、category 表 ,file_actor 表 、actor X „language 表 film_text 表 ; 商 店 类 数据 表 包 
store 表 、staff K inventory 表 ; 客 户 类 数据 表 包 含 customer K rental 表 及 payment K; 
区 域 类 数据 表 包 含 country 表 city KUKR address 表 。 


š 


8.2.3 数据 表 简 介 


通过 8. 2. 2 节 我 们 了 解 到 数据 库 sakila 中 16 张 数据 表 的 基本 信息 ,下 面 基 于 这 些 数据 
表 进行 详细 介绍 。 
1. 数据 表 film 


数据 表 film 用 于 存储 电影 的 基本 信息 及 相关 介绍 的 数据 ,该 数据 表 各 个 字段 的 含义 见 
表 8-1。 


表 8-1 数据 表 film 


字段 名 称 数据 类 型 相关 说 明 
film_id smallint 主键 (电影 id) 
title varchar 电影 名 称 
description text 电影 描述 
release_year year 上 映 年 份 
language_id tinyint 语言 id 
original_language_id tinyint 原版 语言 id 
rental_duration tinyint 租赁 时 长 
rental_rate decimal 电影 租赁 费 
length smallint 电影 时 长 
replacement_cost decimal 替换 成 本 
rating enum 评分 
special_features Set 特色 
last_update timestamp 最 后 更 新 时 间 


2. 数据 表 file_category 


数据 表 file_category 用 于 存储 定义 电影 id 和 所 属 电影 类 别 id 的 数据 ,该 数据 表 各 个 字 
段 的 含义 见 表 8-2, 


表 8-2 数据 表 file category 


字段 名 称 数据 类 型 相关 说 明 
film_id smallint 主键 (电影 id) 
category_id tinyint 外 键 (电影 类 别 id) 
last_update timestamp 最 后 更 新 时 间 


3. 数据 表 category 


数据 表 category 用 于 存储 电影 类 别名 称 和 所 属 类 别 id 的 数据 ,该 数据 表 各 个 字段 的 含 
义 见 表 8-3。 
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表 8-3 数据 表 category 


字段 名 称 数据 类 型 相关 说 明 
category_id tinyint 主键 (电影 类 别 id) 
name varchar 电影 类 别名 称 
last_update timestamp 最 后 更 新 时 间 


4. 数据 表 film_actor 


数据 表 film_actor 用 于 存储 定义 演员 id 和 所 属 电 影 id 的 数据 ,该 数据 表 各 个 字段 的 含 


义 见 表 8-4。 
表 8-4 数据 表 film_actor 
字段 名 称 数据 类 型 相关 说 明 
actor_id smallint 主键 (演员 id) 
film_id smallint 外 键 (电影 id) 
last_update timestamp 最 后 更 新 时 间 


5. 数据 表 actor 
数据 表 actor 用 于 存储 演员 id 对 应 的 姓氏 和 名 字数 据 , 该 数据 表 各 个 字段 的 含义 见 
K 8-5。 
表 8-5 数据 表 actor 
字段 名 称 数据 类 型 相关 说 明 
actor_id smallint 主键 (演员 id) 
first_name varchar 演员 名 字 
last_name varchar 演员 姓氏 
last_update timestamp 最 后 更 新 时 间 


6. 数据 表 language 


数据 表 language 用 于 存储 电影 语言 id 和 对 应 的 语言 名 称 数据 ,该 数据 表 各 个 字段 的 含 


义 见 表 8-6。 
表 8-6 数据 表 language 
字段 名 称 数据 类 型 相关 说 明 
language_id tinyint 主键 (电影 语言 id) 
name char 电影 语言 名 称 
last_update timestamp 最 后 更 新 时 间 
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7. 数据 表 film_text 


数据 表 film_text 用 于 存储 电影 id 和 对 应 的 电影 名 称 及 简 述 的 数据 ,该 数据 表 各 个 字 


段 的 含义 见 表 8-7。 


表 8-7 数据 表 film text 


字段 名 称 数据 类 型 相关 说 明 
film_id smallint 主键 (电影 id) 
title varchar 电影 名 称 
description text 电影 简 述 

8. 数据 表 store 


数据 表 store 用 于 存储 商店 id 和 对 应 管理 人 员 id 以 及 商店 地 址 id 的 数据 ,该 数据 表 各 


个 字段 的 含义 见 表 8-8, 


表 8-8 数据 表 store 


字段 名 称 数据 类 型 相关 说 明 
store_id tinyint 主键 (商店 id) 
manager_staff_id tinyint 管理 人 员 id 
address_id smallint 商店 地 址 id 
last_update timestamp 最 后 更 新 时 间 


9. 数据 表 staff 
数据 表 staff 用 于 存储 员工 的 基本 信息 及 员工 所 属 商店 的 数据 ,该 数据 表 各 个 字段 的 含 
义 见 表 8-9, 
表 8-9 数据 表 staff 

字段 名 称 数据 类 型 相关 说 明 
staff_id tinyint 主键 (员工 id) 
first_name varchar 员工 名 字 
last_name varchar 员工 姓氏 
address_id smallint 地 址 id 
picture blob 照片 
email varchar 邮箱 
store_id tinyint 商店 id 
active tinyint 在 职 
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续 表 
字段 名 称 数据 类 型 相关 说 明 
username varchar 用 户 名 
password varchar 密码 
last_update timestamp 最 后 更 新 时 间 


10. 数据 表 inventory 


数据 表 inventory 用 于 存储 库存 编号 对 应 的 电影 id 和 商店 id 数据 ,该 数据 表 各 个 字段 


的 含义 见 表 8-10。 


R 8-10 数据 表 inventory 


字段 名 称 数据 类 型 相关 说 明 
inventory jd xrediumint 主键 (库存 编号 ) 
film id stiialliat 电影 id 
store_id tinyint 商店 id 
last_update timestamp 最 后 更 新 时 间 


11. 数据 表 customer 


数据 表 customer 用 于 存储 顾客 的 基本 信息 数据 ,该 数据 表 各 个 字段 的 含义 见 表 8-11。 


表 8-11 数据 表 customer 


字段 名 称 数据 类 型 相关 说 明 
customer_id smallint 主键 (顾客 id) 
store_id tinyint 商店 id 
first_name varchar 顾客 名 字 
last_name varchar 顾客 姓氏 
email varchar 顾客 邮箱 
address_id smallint 地 址 id 

active tinyint 活跃 消费 者 
create_date datetime 创建 日 期 
last_update timestamp 最 后 更 新 时 间 


12. 数据 表 rental 


数据 表 rental 用 于 存储 租借 相关 信息 数据 ,该 数据 表 各 个 字段 的 含义 见 表 8-12。 
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表 8-12 数据 表 rental 


字段 名 称 数据 类 型 相关 说 明 
rental_id int 主键 (租借 id) 
rental_date datetime 租借 日 期 
inventory_id mediumint 库存 编号 
customer_id smallint 客户 id 
return_date datetime 返还 日 期 
staff_id tinyint 员工 id 
last_update timestamp 最 后 更 新 时 间 


13. 数据 表 payment 


数据 表 payment 用 于 存储 租赁 时 付款 的 相关 信息 ,该 数据 表 各 个 字段 的 含义 见 


表 8-13。 
R 8-13 ”数据 表 payment 

字段 名 称 数据 类 型 相关 说 明 
payment_id smallint 主键 (付款 id) 
customer_id smallint 顾客 id 
staff_id tinyint 员工 id 
rental_id int 租借 id 
amount decimal 数量 
payment_date datetime 付款 日 期 
last_update timestamp 最 后 更 新 时 间 


14. 数据 表 country 


数据 表 country 用 于 存储 国家 id 和 对 应 的 国家 名 称 数据 ,该 数据 表 各 个 字段 的 含义 见 


表 8-14。 
表 8-14 数据 表 country 
字段 名 称 数据 类 型 相关 说 明 
country_id smallint 主键 (国家 id) 
country varchar 国家 名 称 
last_update timestamp 最 后 更 新 时 间 


15. 数据 表 city 


数据 表 city 用 于 存储 城市 id 和 对 应 的 城市 名 称 以 及 所 属国 家 id 这 一 类 数据 ,该 数据 表 


各 个 字段 的 含义 见 表 8-15. 
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表 8-15 数据 表 city 


字段 名 称 数据 类 型 相关 说 明 
city_id smallint 主键 (城市 id) 
city varchar 城市 名 称 
country_id smallint 国家 id 
last_update timestamp 最 后 更 新 时 间 


16. 数据 表 address 


数据 表 address 用 于 存储 城市 地 址 及 地 址 邮编 .所 属 区 域 等 相关 信息 ,该 数据 表 各 个 字 


段 的 含义 见 表 8-16。 


表 8-16 数据 表 address 


字段 名 称 数据 类 型 相关 说 明 
address_id smallint 主键 (地 址 id) 
address varchar 地 址 名 称 
address2 varchar 地 址 名 称 2 
district varchar 区 域 

city_id smallint 城市 id 
postal_code varchar 邮编 

phone varchar 电话 
last_update timestamp 最 后 更 新 时 间 


8.3 案例 实现 


下 面 讲解 如 何 构建 DVD 租赁 商店 数据 仓库 ,以 及 使 用 Kettle 工具 实现 抽取 源 数据 库 
sakila 中 的 数据 ,转换 成 符合 DVD 租赁 业务 的 数据 ,并 加 载 到 DVD 租赁 商店 数据 仓库 


sakila_dw 中 。 


8.3.1 构建 DVD 租赁 商店 数据 仓库 


我 们 基于 数据 库 sakila 构建 一 个 星 形 模型 的 DVD 租赁 商店 数据 仓库 ,并 命名 为 sakila 
_dw。 数 据 仓 库 sakila_dw 中 的 事实 表 fact_rental 是 根据 数据 库 sakila 中 的 数据 表 rental 
创建 的 ;维度 表 是 根据 数据 表 sakila 中 数据 表 的 分 类 创建 的 , 即 从 人 员 、 时 间 、 地 点 以 及 事件 
4 个 角度 创建 数据 仓库 sakila_dw 的 维度 表 , 具 体 如 下 。 

。 从 人 员 角 度 创建 维度 表 dim_customer 和 dim_staff, 分 别 表示 租赁 业务 中 的 客户 和 


Sk L. 
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。 从 时 间 角 度 创建 维度 表 dim_date 和 dim_time, 用 于 记录 所 有 DVD 的 租赁 时 间 和 归 
还 时 间 。 
。 从 地 点 角度 创建 维度 表 dim_store, 用 于 记录 DVD 光盘 是 从 哪个 商店 租赁 的 。 
。 从 事件 角度 创建 维度 表 dim_actor 和 dim_film, 其 中 dim_actor 用 于 记录 演员 的 基 
本 信息 ,dim_film 用 于 记录 电影 的 基本 信息 。 由 于 电影 是 租赁 和 归还 的 实际 对 象 ， 
因此 维度 表 dim_ film 应 与 事实 表 fact_rental 关联 。 一 部 电影 由 多 位 演员 出 演 , 所 
以 会 有 桥接 表 dim_film_actor_bridge, 该 表 将 电影 与 演员 相关 联 。 
数据 仓库 sakila_dw 中 的 维度 表 (dim_date 和 dim_time 除外 ) 会 对 应 数据 库 sakila 中 
的 某 个 数据 表 。 例 如 ,维度 表 dim_store 对 应 数据 表 store、 维 度 表 dim_actor 对 应 数据 表 
actor, 
本 书 为 读者 提供 了 创建 sakila_dw 数据 仓库 的 SQL 脚本 文件 ,该 脚本 文件 的 名 称 为 
sakila_dw _schema. sql, 读 者 只 使 用 MySQL 图 形 化 管理 软件 SQLyog 运行 sakila_ dw _ 
schema. sql 脚本 文件 创建 sakila_dw 数据 仓库 即 可 。 


8.3.2 加 载 日 期 数据 至 日 期 维度 表 
下 面 通过 Kettle 工具 加 载 日 期 数据 至 日 期 维度 表 dim_date, 具 体 实现 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 load_dim_date, 并 添加 “生成 记录 ”控件 “增加 序列 ”控件 、 
“JavaScript 代码 ”控件 “ 表 输 出 ”控件 以 及 Hop 跳 连接 线 , 具 体 效果 如 图 8-11 所 示 。 


[load dim date £2 
P +H D. e D EE E 10% -~ 


图 8-11 创建 转换 load dim date 


2. 配置 “生成 记录 ”控件 


双击 图 8-11 中 的 “生成 记录 ”控件 ,进入 “生成 记录 ”界面 ,如 图 8-12 所 示 。 

在 图 8-12 的 “限制 ?处 添加 生成 的 日 期 ,默认 为 10, 这 里 改 为 3650, 即 生成 10 年 的 日 期 
(10 * 365); 在 “字段 ” 框 添加 字段 language( 语 言 ) .country_code( 国 家 码 ) initial_date( 初 始 
化 的 日 期 ), 对 生成 的 日 期 进行 初始 化 ,具体 如 图 8-13 所 示 。 

在 图 8-13 中 单 击 “ 确 定 ” 按 钮 ,完成 “生成 记录 ”控件 的 配置 。 


3. 配置 “增加 序列 ”控件 
双击 图 8-11 中 的 “增加 序列 ”控件 ,进入 “增加 序列 ”界面 ,如 图 8-14 所 示 。 
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5 生成 记录 [ala a] 
SEER 生成 记录 
10 ° 
Never stop generating rows E] 


Interval in ms (delay) [5000 ° 
Current row time field name [Rew °. 
Previous row time field name [FiveSecondsAgo ° 

字段 
£ ze am 格式 +< 精度 — mam AO 
1 
eM E 
[Due] fm man.) [ mao.) 


图 8-12 “生成 记录 ”界面 


E 生成 记录 = = 
DEER 生成 记录 
mm [sso] ° 
Never stop generating rows E] 
Interval in ms (delay) [5000 °. 
Current row time field name [Pow K 
Previous row time field name [FiveSecondsAgo °. 
字段 : 
|£ 名 称 类 型 格式 长 度 “精度 货币 类 型 小 数 分 组 值 RIER 
zi I 
2 
3 


[Onee] [ao JL mao ][ mao J 


图 8-13 配置 “生成 记录 ”控件 


增加 序列 
DEER 增加 序列 
BOER valuename 
使 用 数据 库 来 生成 序列 
使 用 DB 来 获取 sequence? F] 
MESES 7 | [ms. | [52] [Wizard.. 
gsm |® [Schemas- 
sequence 名称 [SEQ Je [Sequences..] 
使 用 转换 计数 各 来 生成 序列 
EHRE sequence? IJ 
计数 和 名称 加 过 
sena ° 
Egg 1 ° 
最 大 值 999999999 ° 


图 8-14 “增加 序列 ”界面 
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在 图 8-14 中 的 “ 值 的 名 称 ” 处 将 valuename 改 为 DaySequence, 即 增加 一 列 日 期 字段 ,用 
于 改变 “生成 记录 ”控件 生成 的 日 期 ,具体 如 图 8-15 所 示 。 


=: [= J 
SERER 增加 序列 
asan 
使 用 数据 库 来 生成 序列 
使 用 DB 来 获取 sequence? F] 
的 所 库 连 接 了 | (a8. [F] [wizard.. 
模式 名 称 je [schemas... 
Sequence 名 称 [SEQ |® [sequences... 
使 用 转换 计数 器 来 生成 序列 
使 用 计数 器 来 计算 sequence? 
计数 器 名 称 (可 远 ) 
起 始 值 1 ° 
增长 根据 1 ° 
最 大 值 999999999 ° 


图 8-15 配置 “增加 序列 ”控件 


在 图 8-15 中 单 击 “ 确 定 ” 按 钮 ,完成 “增加 序列 ”控件 的 配置 。 
4. 配置 “JavaScript 代码 ”控件 
双击 图 8-11 中 的 “JavaScript 代码 "控件 ,进入 *JavaScript 代码 ”界面 ,如 图 8-16 所 示 。 


HJavaScriptft 码 =m s= J 


步 要 名称 JavaScript 代 码 
Java script 函数 : Java script : 
b Ë Transform Scrif Í Š Script 1 2 
b È Transform Con: | 一 Script here a 
b D Transform Fund 
9 Input fields 
4 有 Output fields - 
Please use t|| * + 
行 呈 :0 
< [ana] 上 | 兼容 模式 ? F RRA 9 ° 


字段 
£ FREER BE» 。 类 型 KE 。 精度。 车 换 'Fieldname' 或 ,Rename to' 值 


[Oe] [ao J wo J| aao | museo | 


图 8-16 “JavaScript 代码 ”界面 


在 图 8-16 中 色 选 “兼容 模式 ?” 复 选 框 ,使 得 “JavaScript 代码 ”控件 的 兼容 性 更 强 ; 在 
Java Script 代码 框 中 编写 代码 ,具体 代码 如 文件 8-1 所 示 。 
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文件 8-1 Script 1 
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上 述 代 码 中 ,第 1 一 19 TRE EE locale, calendar 以 及 date 对 象 ,设置 时 间 和 日 期 ;第 
20 一 55 行 代 码 对 天 数 、 星 期 .月 份 、 年 份 、 季 度 进行 格式 化 ;第 56—68 行 代码 获取 周 的 第 一 
天 ;第 69—91 行 代码 获取 日 历 的 下 一 天 .判断 是 否 为 周 的 最 后 一 天 、 是 否 为 月 的 第 一 天 、 是 
否 为 月 的 最 后 一 天 ;第 92 一 95 行 代码 设置 年 _ 季度 .年 _ 月份. 年 月 的 缩写 ;第 97 行 代码 生 
成 日 期 代理 键 。 

单 击 图 8-16 中 的 “获取 变量 "按钮 ,将 代码 中 定义 的 变量 添加 至 字段 框 中 ,具体 如 图 8-17 
所 示 。 


字段 

£ | 字段 名 称 BE» 类 型 长 度 ü= të 'Fieldname' 或 ' Rename to'fË 
1 date Date = 
2 date_short String s 
3 “date medium String = 
4 datelong String s 
5 date full String = 
6 day in year String = 
7 dayjin_month String = 
8 dayname String = 
9 day_abbreviation String s 
10 week in year String = 
11 week_in_month String 否 
12 month_ number String s 
13 month name String = 
14 month_abbreviation String = 
15 year2 String = 
16 year4 String s 
17 quarter_name String 5 
18 quarter number String = 
19 is first_day in_ week String = 
20 islast day in week String = 
21 is first_day in_month String s 
22 is last day in month String = 
23 year_quarter String = 
24 year month_number String = 
25 year_month_abbreviation String s 
26 date key String = 


图 8-17 添加 变量 至 字段 框 中 


“JavaScript 代码 ”控件 的 配置 效果 如 图 8-18 所 示 , 单 击 “ 确 定 ” 按 钮 ,完成 “JavaScript (Ü 
码 " 控 件 的 配置 。 


5. 配置 “ 表 输 出 "控件 


双击 图 8-11 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 ”界面 ,如 图 8-19 所 示 。 

在 图 8-19 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-20 所 示 。 

在 图 8-19 中 单 击 目标 表 右 侧 的 “浏览 ”按钮 .选择 输出 的 目标 表 , 即 维度 表 dim_date; 勾 
选 “ 指 定数 据 库 字段 * 复 选 框 ,用 于 将 维度 表 字 段 与 JavaScript 控件 流 中 的 变量 字段 进行 匹 
配 , 具 体 如 图 8-21 所 示 。 

在 图 8-21 中 单 击 “数据 库 字 段 ” 选 项 卡 ,弹出 “数据 库 字 段 ?选项 卡 界面 ,在 该 界面 下 单 
击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,如 图 8-22 所 示 。 
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DEER JavaScript 代 码 
Java script 函数 : Java script : 

b È Transform Scri > |Í Ë Script 1 3⁄2 
b È Transform Co //Script here 7; 

a 7//æ@locale a 
?站 Transform var locale = new java.util.Locale(language.getString(), country_code. ge 
a o|] Input fields //%@Calendar 

var calendar = new java.util.GregorianCalendar( locale); 


P language.g | /ans 
Calendar. .setTime(initial_date.getDate()); 


P. countrys 
— /该 旱 已 万 为 当前 下 其 
P. initial_date. calendar .add(calendar .DAY_OF_MONTH.DaySequence .getInteger()-1); 


D: //EREM 
P. DeySequon| 图 |var date = new java.util. Date(calendar.getTineInWillis()); 


4 Bl Output fields ZZxamsm 
> language.se var date_short = java. text DateFormat .getDateInstance(java. text .DateFo™ 
. [uuwaawawaawawnamamanaumanaaa ll auuaananamauaumamaaunamanasmanmas] » 


P. country_coc 
P. initial_date.: > 位 置 : 22, 9 
PT E Feet ALRI 9 " 
字段 
E-E BEH sm = m m 
1 date Bus = 
2 date_short String = n 


[aso J[ mo J] amro || mwan | 


图 8-18 “JavaScript 代码 "控件 的 配置 


asz 回 
指定 数据 库 字 段 加 


ET ET 


表 分 区 数据 加 


[Oue] [aso] (amo) hasa] 


A 8-19 “ 表 输 出 ”界面 


在 图 8-22 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 ,再 单 击 Add 按钮 ,将 
一 对 映射 字段 添加 至 “映射 " 框 中 ,车 * 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 相同 , 则 可 以 
单 击 “ 猜 一 猜 " 按 钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 8-23 所 示 。 

在 图 8-23 中 单 击 “映射 匹配 ?对 话 框 中 的 “确定 ”按钮 “ 表 输 出 ”控件 配置 的 效果 图 如 
图 8-24 所 示 , 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 出 ”控件 的 配置 。 
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f 


目 数据 库 连 接 
高 级 连接 名 称 : 
sakila_dw 
集群 jetgsem: 设置 
MS SQL Server (Native) g| 11E% 
MariaDB localhost ° 
数据 库 名 称 : 
sakila dw ° 
== 
3306 ° 
用 户 各 : 
root ° 
zR 
...... ° 


F] Use Result Streaming Cursor 


[ w ama j ws | 


图 8-20 MySQL 数据 库 连接 的 配置 


司 Sah 


#RSE WH 
数据 库 连 接 | sakila_dw 
目标 模式 


1 


目标 表 dim_date 
提交 记录 数量 1000 


anz P) 
忽略 插入 错误 O 
指定 数据 库 字段 


ES 


表 分 区 数据 
分 区 字段 
每 个 月 分 区 数据 @ 


[Onee] [ao J| mo ][ sq. | 


图 8-21 指定 输出 的 目标 表 


6. 运行 转换 load_dim_date 


单 击 转 换 工 作 区 项 部 的 区 按钮 ,运行 创建 的 转换 load_dim_date, 实 现 加 载 日 期 数据 至 
日 期 维度 表 dim_date 中 ,具体 如 图 8-25 所 示 。 
从 图 8-25 中 执行 结果 的 “步骤 度量 ”可 以 看 出 ,“ 生 成 记录 ”控件 写 入 3650 条 数据 ;“ 增 
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映射 
[Add @)) 
图 8-22 “映射 匹配 ”对 话 框 

EEO ebek) 
Erm Bize Bn 

language date --> date value 

country_code date_short --> date_short 

initial_date date_ medium --> date_ medium 

DaySequence date long --> date long 


date full --> date full 
day jn year --> day in year 


week in year -> wok „year 
week_in_month --> is Jast-day_in week 

[Esa] | month number > month abbreviation 
month_name --> month_number 

| 

year2 --> year2 

year4 --> year4 

quarter name --> quarter name 

quarter number --> week jn_month 

is first day in week --> is first day in week 

is Jast dayin week 

is first day in month 


year quarter --> year aaner 

自动 选择 目标 amasa 回 year_month_number --> year_month_number 

隐 基 已 经 罗 配 的 源 字 自 隐 茂 已经 匹配 的 目标 字段 year_month_abbreviation --> year_month_abbreviation 
date key --> date key 


图 8-23 设置 映射 匹配 


加 序列 ”控件 从 “生成 记录 ”控件 中 读 取 3650 条 数据 并 写 人 该 控件 中 :JavaScript 代码 ” 控 
件 从 “增加 序列 ”控件 中 读 取 3650 条 数据 并 写 和 该 控件 ;“ 表 输出 ”控件 从 “Java Script 代码 ” 
控件 中 读 取 3650 条 数据 并 写 人 该 控件 ,最终 进行 输出 。 


7. 查看 维度 表 dim_date 中 的 数据 


通过 SQLyog 工具 ,查看 维度 表 dim_date 是 否 已 成 功 插 入 3650 条 日 期 数据 ,查看 结果 
如 图 8-26 所 示 ( 这 里 只 截取 了 部 分 数据 ) 。 

从 图 8-26 中 可 以 看 出 ,维度 表 dim_date 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 加 载 日 期 
数据 至 日 期 维度 表 dim_date 中 。 
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EE] lee = J 
步 要 名 称 ” 雪 给 出 
BETER | sakila dw - 
目标 模式 
目标 表 dim_date 
提交 沁 录 数量 1000 
asa 回 
名 略 插 和 错误 O 
指定 数据 志 字 段 团 
=m mase 
MADEE 
£ Se | R 
1 date value 
2 date_short sasa: DR | 
3 date_medium 
4 date ong 
5 date full 
6 dayin year 
7 day_abbreviation 
8 _is_last day in month ~ 
© Help| 


图 8-24 “ 表 输 出 ”控件 配置 的 效果 图 


执行 结果 


20091228|2009-12-28|12/28/09 Dec 
20091227 2009-12-27|12/27/09 
L]! 2006091226 2009-12-26 12/26/09 


Monday, December 28, 2009 
Sunday, December 27, 2009 
Saturday, December 26, 2009 


(2009-12-25 


12/25/09 


Friday, December 25, 2009 


2009-12-24 


12/24/09 


|Thursday, December 24, 2009 


2009-12-23 


12/23/09 


Wednesday, December 23, 2009 


2009-12-22 


12/22/09 


|Tuesday, December 22, 2009 


2009-12-21 


12/21/09 


Monday, December 21, 2009 


[| 20091220|2009-12-20/ 


12/20/09 


Sunday, December 20, 2009 


图 8-26 ”维度 表 dim date 


8.3.3 加 载 时 间 数 据 至 时 间 维 度 表 
下 面 通过 Kettle 工具 加 载 时 间 数 据 至 时 间 维 度 表 dim_time, 具 体 实现 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 load_dim_time, 并 添加 “生成 记录 ”控件 “增加 序列 ”控件 、 
“JavaScript 代码 ?控件 “记录 关联 ( 笛 卡 儿 输 出 )" 控 件 (该 组 件 在 整个 转换 中 不 做 任何 配 
置 ,因此 后 续 步 骤 不 做 讲解 )“ 表 输出 控件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 8-27 所 示 。 


[SE load dim time 3 
P +H Tl p iy XRO EB 10% ~ 


四 
Y 

š m) 
Y 
器 


JavaScriptft 码 


>—|=3 > [£T] > [a 


Efe 
生成 记录 2 we nmpas JavaScriptft 码 2 sei 
eJ 


图 8-27 创建 转换 load_dim_time 


2. 配置 “生成 记录 ”控件 

双击 图 8-27 中 的 “生成 记录 ”控件 ,进入 “生成 记录 ”界面 ,在 “限制 ”后 的 文本 框 添加 24 
表示 生成 24 条 数据 (24 小 时 从 0 点 开始 至 23 点 结束 共 24 条 数据 ); 在 “字段 " 框 添加 生成 
字段 的 名 称 、 字 段 类 型 及 默认 值 为 0, 具 体 如 图 8-28 所 示 。 


DEER 生成 记录 
mapa] ° 
Never stop generating rows E] 
Interval in ms (delay) [5000 ° 
Current row time field name [now ° 
Previous row time field name [FveSecondsAgo ° 
+ 
£ 名 称 关 型 ft m Km sm Jm om ü sem 
1 
[ao | [L mo J 


图 8-28 配置 “生成 记录 ”控件 


在 图 8-28 中 单 击 “ 确 定 ” 按 钮 ,完成 “生成 记录 ”控件 的 配置 。 
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3. 配置 “增加 序列 ”控件 


双击 图 8-27 中 的 “增加 序列 ”控件 ,进入 “增加 序列 ”界面 ,在 “ 值 的 名 称 ” 处 将 valuename 
改 为 hours24, 即 增加 一 列 小 时 字段 ,在 起 始 值 后 的 文本 框 内 将 默认 值 1 修改 为 0, 代表 从 0 
开始 生成 24 条 数据 (上 一 步 * 生 成 记录 ?控件 限制 了 条 数 ), 即 生成 数据 为 0 一 23。 由 于 时 间 
由 时 分 秒 构成 ,因此 需要 生成 时 分 秒 字段 的 数据 ,这 里 先生 成 24 小 时 数据 ,后 续 步 骤 中 会 生 
成 60 分 和 60 秒 的 数据 ,具体 如 图 8-29 所 示 。 


回 增加 序列 [le = J 
EE “增加 序列 
eee Des] 
使 用 数据 库 来 生成 序列 
使 用 DB 来 获取 sequence? E] 
数据 库 连 接 |sakila dw 了 | | S888...| | FÈ.. | | Wizard... 
模式 名 称 | je [schemas... 
Sequence [SEQ] |® sequences... 
使 用 转换 计数 器 来 生成 序列 
使 用 计数 器 来 计算 sequence? 
HEERO 
起 始 值 0 ° 
增长 根据 1 ° 
最 大 值 999999999 ° 
[azo J| mao | 


图 8-29 配置 “增加 序列 ”控件 


在 图 8-29 中 单 击 “ 确 定 ” 按 钮 ,完成 “增加 序列 ”控件 的 配置 。 
4. 配置 “JavaScript 代码 ”控件 


双击 图 8-27 中 的 “JavaScript 代码 ”控件 ,进入 “JavaScript 代码 ”界面 , 勾 选 “兼容 模式 ?” 
复 选 框 ,使 得 “JavaScript 代码 ”控件 的 兼容 性 更 强 ;在 JavaScript 代码 框 中 编写 代码 ; 单 击 
“获取 变量 ”按钮 ,将 代码 中 定义 的 变量 添加 至 字段 框 ,具体 如 图 8-30 所 示 。 

在 图 8-30 中 单 击 “ 确 定 ” 按 钮 ,完成 “JavaScript 代码 ”控件 的 配置 。 


5. 配置 “生成 记录 2” 控 件 


双击 图 8-27 中 的 “生成 记录 2” 控 件 ,进入 “生成 记录 ”界面 ,在 “限制 "后 的 文本 框 添加 
60 表示 生成 60 条 数据 (60 分 钟 从 0 分 开始 至 59 分 结束 共 60 条 数据 ) ;在 “字段 ” 框 添 加 生 
成 字段 的 名 称 、 字 段 类 型 及 默认 值 为 0, 具 体 如 图 8-31 所 示 。 

在 图 8-31 中 单 击 “ 确 定 ” 按 钮 ,完成 “生成 记录 2” 控 件 的 配置 。 


6. 配置 “增加 序列 2 控件 
双击 图 8-27 中 的 “增加 序列 2” 控 件 ,进入 “增加 序列 ”界面 ,将 “ 值 的 名 称 ” 处 的 
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HJavaScriptft 码 


DEER JavaSciptftEs 
Java script Bt: Java script: 
”站 Transform Scripts|[§ Script 1 3 
p [E Transform Constal ¿Script here 
e || Elime 
> E Transform Functid |var hoursl2=hours24.getInteger()X12; 
ariin feds Car an pasours24 get T 127"PN" : "AM" 
> hours24 row.g| var am_pm: yurs24 .getInteger()>123 š - 
> hours24.getInt 
4 Be Output fields 
P hours24_row.s 


P. hours24.setVal 
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图 8-30 BI“ JavaScript 代码 "控件 


ele] z J 


E 生成 记录 


DEER 生成 记录 2 

限制 60 ° 

Never stop generating rows 回 
Interval in ms (delay) [ 5000 


Current row time field name [now 
Previous row time field name [FiveSecondsAgo 
字段: 


£ 名称 类 型 格式 ”长度 “精度 ”货币 类 型 ”小数 “分 组 ü 设 为 空 率 ? 
0 S 


|° * ° 


1 minutes_row Integer 


[Orsi] Lao |[ ase |[ wao | 


图 8-31 配置 “生成 记录 "控件 


valuename 改 为 minutes, 即 增加 一 列 分 钟 字段 ,用 于 记录 分 钟 数 ,在 起 始 值 后 的 文本 框 内 将 
默认 值 1 修改 为 0, 代 表 从 0 开始 生成 60 条 数据 (上 一 步 * 生 成 记录 2” 控 件 限 制 了 条 数 ) , 即 
生成 数据 为 0 一 59。 具 体 如 图 8-32 所 示 。 

在 图 8-32 中 单 击 “确定 ?按钮 ,完成 “增加 序列 2 控件 的 配置 。 

7. 配置 “生成 记录 3” 控 件 

双击 图 8-27 中 的 “生成 记录 3” 控 件 ,进入 “生成 记录 ”界面 ,在 “限制 ”后 的 文本 框 添加 
60 表示 生成 60 条 数据 (60 秒 钟 从 0 秒 开始 至 59 秒 结束 共 60 条 数据 ); 在 “字段 ” 框 添加 生 
成 字段 的 名 称 \ 字 段 类 型 及 默认 值 为 0, 具体 如 图 8-33 所 示 。 
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EE = | lm 
步 要 名 称 增加 序列 了 
esas [minutes] 
使 用 数据 库 来 生成 序列 
使 用 DB 来 获取 sequence? 回 
RRES [saldla_dw ”| [ms.] [E] [wizara.-] 
楼 式 名 称 JO [schemas.- 
Sequence 名 称 [SEQ_ ° Sequences... 
使 用 转换 计数 器 来 生成 序列 
使 用 计数 器 来 计算 sequence? 
HIERIE 
起 始 值 0 ° 
增长 根据 1 ° 
最 大 值 999999999 ° 
(Gree) [azo | 
图 8-32 配置 “增加 序列 2 控件 
5 生成 记录 me = 
DEZ EMRS 
限制 60 ° 


Never stop generating rows [F] 


Interval in ms (delay) [5000 °. 
Current row time field name [now ° 
Previous row time field name [FiveSecondsAgo ° 
字段: 
£ | 名称 类 型 。 格式 长 度 Wm masm JS om ü sem 
1 seconds row Integer 0 ë 


(Ohee) Cazo ][ mase ][ wo ] 
图 8-33 配置 “生成 记录 ”控件 


在 图 8-33 中 单 击 “ 确 定 ” 按 钮 ,完成 “生成 记录 ”控件 的 配置 。 
8. 配置 “增加 序列 3” 控 件 


双击 图 8-27 中 的 “增加 序列 3” 控 件 ,进入 “增加 序列 ”界面 ,将 “ 值 的 名 称 ” 处 的 
valuename 改 为 seconds, 即 增加 一 列 秒 字 段 , 用 于 记录 秒 数 , 在 起 始 值 后 的 文本 框 内 将 默认 
值 1 修改 为 0, 代 表 从 0 开始 生成 60 条 数据 (上 一 步 “ 生 成 记录 3” 控 件 限制 了 条 数 ), 即 生成 
数据 为 0 一 59。 具 体 如 图 8-34 所 示 。 

在 图 8-34 中 单 击 “确定 ?按钮 ,完成 “增加 序列 3” 控 件 的 配置 。 


9. 配置 “JavaScript 代码 2” 控 件 


双击 图 8-27 中 的 “JavaScript 代码 2” 控 件 , 进 入 “JavaScript 代码 ”界面 , 勾 选 “兼容 模 
式 ?" 复 选 框 ,使 得 “JavaScript 代码 2” 控 件 的 兼容 性 更 强 ;在 JavaScript 代码 框 中 编写 代码 ; 
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E SA =m 
SEER “增加 序列 3 
aean 
使 用 数据 库 来 生成 序列 
使 用 DB 来 获取 sequence? E] 
AURES [sakila dw ”| [s8] [WE | [Wara] 
模式 名 称 ]@ [schemas.- 
Sequence ZFF [SEQ ° Sequences... 
使 用 转换 计 数 器 来 生成 序列 
使 用 计数 器 来 计算 sequence? 
计数 器 名 称 (可 远 ) 
起 始 值 0 ° 
增长 根据 1 ° 
最 大 值 999999999 ° 


图 8-34 配置 “增加 序列 3" 控 件 
单 击 “获取 变量 ”按钮 ,将 代码 中 定义 的 变量 添加 至 字段 框 ,具体 如 图 8-35 所 示 。 


£! Javascriptf 码 [= = J 
BEER JavaScript 代 码 2 
Java script 函数 : Java script: 
b D Transform Scri + |(Ẹ Script 1 32 
四 Transform Cor “AAScript here a 
T f Fu tine 
t E Transform var time = hours24.getInteger() + ":" 
4 明 Input fields + minutes getInteger() + *:" 
+ seconds getInteger(): 
P hours24_r LAtime_key 


P hours24.gel [var time_key = (hours24.getInteger()<107"0":"") 
+hours24 .getInteger()+(minutes.getInteger()<10?"0 


P hoursl2.get +minutes getInteger()+(seconds ,getInteger()<103"0 

D an pma +seconds .getInteger() sa 

P minutes ro |E Ë 

> minutes.get ~ | 位 置 :6,0 
| E s AGBSI 9 ° 
字段 
É peze 。 改 各 为 。 类 型 KE 。 精度 ER 'Fieldname' 或 'Rename to 值 A 
1 time String = n 
2 timekey String = - 


[Onse] (azo |[ mao J| ameno || mwan | 


图 8-35 BE“ JavaScript 代码 2” 控 件 


在 图 8-35 中 单 击 “ 确 定 ” 按 钮 ,完成 “JavaScript 代码 2 控件 的 配置 。 
10. 配置 “ 表 输 出 "控件 


双击 图 8-27 中 的 “ 表 输 出 ”控件 ,进入 “ 表 输 出 ”界面 ,如 图 8-36 所 示 。 
在 图 8-36 中 单 击 “新 建 ? 按 钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “确认 ”按钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-37 所 示 。 
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图 8-36 “ 表 输 出 ”界面 
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图 8-37 MySQL 数据 库 连接 的 配置 


在 图 8-36 中 单 击 目标 表 右 侧 的 “浏览 ?按钮 ,选择 输出 的 目标 表 , 即 维度 表 dim_time; 勾 
选 “指定 数据 库 字段 ” 复 选 框 ,用 于 将 维度 表 dim_time 的 字段 与 JavaScript 控件 流 中 的 字段 
进行 匹配 ,具体 如 图 8-38 所 示 。 

在 图 8-38 中 单 击 “数据 库 字 段 ” 选 项 卡 ,切换 到 “数据库 字段 ”选项 卡 界 面 , 并 在 该 界面 
下 单 击 “ 输 入 字段 映射 "按钮 ,弹出 “映射 匹配 ”对 话 框 ,如 图 8-39 所 示 。 

在 图 8-39 中 依次 选中 “ 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 ,再 单 击 Add 按钮 ,将 
一 对 映射 字段 添加 至 “映射 " 框 中 ,车 * 源 字段 ”中 的 字段 和 “目标 字段 ”中 的 字段 相同 , 则 可 以 
单 击 “ 猜 一 猿 ” 按 钮 ,让 Kettle 自动 实现 映射 ,具体 如 图 8-40 所 示 。 

在 图 8-40 中 单 击 “ 映 射 匹配 ”对 话 框 中 的 “确定 ”按钮 ,“ 表 输出 ”控件 配置 的 效果 图 如 
图 8-41 所 示 , 单 击 “ 确 定 ” 按 钮 .完成 “ 表 输出 ”控件 的 配置 。 


299 


EET ala] 
HEZE FaH 
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目标 模式 © [se] 
目标 表 dim time o mse] 
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图 8-38 


指定 输出 的 目标 表 


图 8-39 


“映射 匹配 ”对 话 框 


hours24 --> hours24 
hours12 --> hours12 
am_pm --> am_pm 
minutes --> minutes 
seconds --> seconds 


time --> time value 


time_key --> ime key 


图 8-40 设置 映射 匹配 
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图 8-41 “ 表 输 出 ”控件 配置 的 效果 图 


11. 运行 转换 load_dim_time 


单 击 转换 工作 区 顶部 的 区 按钮 ,运行 创建 的 转换 load_dim_date, 实 现 加 载 时 间 数 据 至 
时 间 维 度 表 dim_time 中 ,具体 如 图 8-42 所 示 。 
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图 8-42 运行 转换 load dim_time 
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从 图 8-42 中 执行 结果 的 “步骤 度量 ?可 以 看 出 ,* 生 成 记录 2” 控 件 写 入 60 条 数据 (分 钟 
数据 );“ 生 成 记录 ”控件 写 人 24 条 数据 (小 时 数据 );“ 生 成 记录 3 控件 写 人 60 条 数据 ( 秒 数 
据 );“ 增 加 序列 ”控件 从 “生成 记录 ”控件 中 读 取 24 条 数据 并 写 入 该 控件 ;“ 增 加 序列 2” 控 件 
从 “生成 记录 2” 控 件 中 读 取 60 条 数据 并 写 入 该 控件 ;“ 增 加 序列 3” 控 件 从 “生成 记录 3” 控 
件 中 读 取 60 条 数据 并 写 和 该 控件 ;"JavaScript 代码 ”控件 从 “增加 序列 "控件 中 读 取 24 条 数 
据 并 写 和 该 控件 ;“ 记 录 关 联 ( 笛 卡 儿 输出 )" 控 件 将 Java Script 控件 “增加 序列 2” 控 件 “ 增 
加 序列 3” 控 件 进行 记录 关联 , 读 取 到 144 条 数据 并 写 人 该 控件 86400 条 数据 ;“JavaScript 
代码 2” 控 件 从 “记录 关联 ”控件 中 读 取 86400 条 数据 并 写 入 该 控件 ;“ 表 输出 ”控件 从 Java 
Script 2 控件 中 读 取 86400 条 数据 并 写 人 该 控件 ,最 终 进行 输出 。 


12. 查看 维度 表 dim_time 中 的 数据 


通过 SQLyog 工具 ,查看 维度 表 dim_time 是 否 已 成 功 插 入 86400 条 时 间 数 据 , 查 看 结 
果 如 图 8-43 所 示 ( 这 里 只 截取 了 部 分 数据 ) 。 
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00:00:00 
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图 8-43 维度 表 dim time 


从 图 8-43 中 可 以 看 出 ,维度 表 dim_time 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 加 载 时 间 
数据 至 时 间 维 度 表 dim_time 中 。 


8.3.4 加 载 员 工 数据 至 员工 维度 表 
下 面 通过 Kettle 工具 加 载 员工 数据 至 员工 维度 表 dim_staff, 具 体 实现 步 又 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 load_dim_staff ,并 添加 “ 表 输入 ”控件 “字段 选择 ”控件 “ 值 
映射 "控件 “维度 查询 /更 新 "控件 以 及 Hop 跳 连 接线 ,具体 如 图 8-44 所 示 。 


ŠK load dim staff t; 
P r l Dl ei XOR Æ 100% ~ 


e E > 同一 > 加 | 
EE TN 字段 选择 
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图 8-44 创建 转换 load_dim_staff 
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2. 配置 “ 表 输入 ”控件 
双击 图 8-44 中 的 “ 表 输入 ”控件 ,进入 “ 表 输入 ”界面 ,如 图 8-45 所 示 。 


JESE SAA 
mee, O e | | 
jag [RSQl 坦 询 再 各. 


SELECT <values> FROM <table name> WHERE 《conditions》 
‘ 


— 


图 8-45 “ 表 输 入 "界面 


在 图 8-45 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-46 所 示 。 
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ax 连接 名 称 
jaan sakila_dw 
s 连接 类 型 : 设置 
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JNDI Use Result Streaming Cursor 
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图 8-46 MySQL 数据 库 连接 的 配置 


在 图 8-45 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 字段 staff_last_update 中 的 最 大 值 ,将 
该 值 蔡 换 为 1970-01-01 00:00:00 并 赋值 给 临时 字段 max_dim_staff_last_update; 单 击 “ 预 
览 ? 按 钮 ,查看 临时 字段 max_dim_staff_last_update 是 否 将 默认 值 设 置 为 1970-01-01 00: 
00:00, 具 体 如 图 8-47 和 图 8-48 所 示 。 
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= EE 
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| É | max dim. staff last update 


图 8-48 ”预览 数据 


从 图 8-48 中 可 以 看 出 ,临时 字段 max_dim_staff_last_update 的 默认 值 设 置 为 1970-01- 
01 00:00:00, 单 击 “ 关 闭 ” 一 “确定 ”按钮 ,完成 “ 表 输 入 "控件 的 配置 。 


3. 配置 “ 表 输 入 2 控件 


双击 图 8-44 中 的 “ 表 输 入 2” 控件 ,进入 “ 表 输 入 ”界面 ,如 图 8-49 所 示 。 
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4 + 
行 1 列 0 
允许 简易 转换 回 
E SQL 语句 里 的 变量 回 
从 步 要 插入 数据 = 
执行 每 一行 ? [l 
记录 数量 限制 0 ° 


Cao )[ sae |[( wo | 


图 8-49 “ 表 输 入 ”界面 
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在 图 8-49 中 单 击 “新 建 ? 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 * 确 认 ” 按 钮 。MySQL 


数据 库 连 接 的 配置 如 图 8-50 所 示 。 


r 
B 数据 库 连 接 


高 级 连接 名 称 : 
k. 连接 类 型: == 
MS SQL Server z] ENEE 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) RERE 
MonetDB sakila ° 
Native Mondrian 3 sos 
Neoview 3306 ° 
Netezza I 
OpenERP Server 用 六 各: 
Oracle 了 | root ° 
连接 方式 : 密码 : 
rrr ° 
Feed I] Use Result Streaming Cursor 


图 8-50 MySQL 数据 库 连接 的 配置 


在 图 8-49 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 数据 库 sakila 中 数据 表 staff 中 的 最 新 


数据 ,具体 如 图 8-51 所 示 。 


SEER SRA 
sakila ~ [sa] 
Sa EST 
SIl a 
staff_id 
first_name 
last_name 
dd: T 
email 
store_id 
is 
=== 
. last_update 
FROM staff where last_update > ? - 
ç a 
行 1 列 0 
允许 简易 转换 [PJ 
E sQL 语句 里 的 变量 回 
Mpya, mas [SSX a 
执行 每 一 行 ? 回 
记录 数量 限制 0 ° 
z hazon) mo J[—msoJ 


图 8-51 编写 SQL 语句 


在 图 8-51 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输入 2 控件 的 配置 。 


m3067 数据 清洗 


4. 配置 “字段 选择 "控件 

双击 图 8-44 中 的 “字段 选择 ?控件 ,进入 “选择 /改名 值 ?界面 ,在 “元 数据 ?选项 卡 的 “ 需 
要 改变 元 数据 的 字段 ?处 添加 字段 active, 由 于 维度 表 dim_staff 中 字段 staff_active 的 数据 
类 型 为 char 类 型 ,因此 需要 将 数据 表 staff 中 字段 active 的 数据 类 型 改 为 String, 具 体 如 图 


8-52 所 示 。 
Et 选择 /改名 值 =e 
RER Fm 

TEN | 移 除 [元 数据 

需要 改变 元 数据 的 字段 : 
£ 字段 名 称 改 各 成 类 型 KÆ 精度 ”Binary to Normal? ”格式 Date Format Lenient? 
1 active String = = 
` war , 

Eu [=o J[ xe ] 

图 8-52 ”添加 字段 


在 图 8-52 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 


5. 配置 “ 值 映射 "控件 


双击 图 8-44 中 的 “ 值 映射 "控件 ,进入 “* 值 映射 "界面 ,在 “使 用 的 字段 名 ”后 的 下 拉 列 表 
中 选择 字段 active; 在 “字段 值 " 框 中 添加 源 值 和 目标 值 ,这 里 将 Y 蔡 换 成 Yes, 将 N 替换 成 
No, 具 体 如 图 8-53 所 示 。 


r 
n Get =|@| = 


[ss] = mas) 


图 8-53 配置 “ 值 映射 "控件 


在 图 8-53 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 值 映射 "控件 的 配置 。 


6. 配置 “维度 查询 /更 新 ”控件 


双击 图 8-44 中 的 “维度 查询 /更 新 ”控件 ,进入 “维度 查询 /更 新 ”界面 ,具体 如 图 8-54 所 示 。 
在 图 8-54 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 


数据 库 连 接 的 配置 如 图 8-55 所 示 。 
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[维度 查询 /更 新 = s= 


= ERE 
oaa 


f 
| 


目标 表 dim table name 
提交 数量 “100 
Fuss g) 
mer O 
EZE = EFKAS) 5000 
=o. >| 
XUR (to look up row in dimension): 
E sp — 流 里 的 字段 
1 


代理 关键 字段 可 | 新 的 名 称 


JPEREWEFf2 [date from = 最 小 的 年 份 “1900 
使 用 另外 一 个 可 用 的 开始 日 期 问 | <Select Option> - 
KLANER [date_to E 最 大 年 份 2199 | 


[aso ][ wao ][ #ws=a | 


. 


图 8-54 “维度 查询 /更 新 "界面 


目 aste 
连接 名 称 
连接 地 sakila dw 
连接 类 型 : 设置 
MS SQL Server = ER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) sn C  — — — 
MonetDB sakila dw ° 
serve aos 
Neoview 3306 ° 
Netezza ç 
OpenERP Server E 
° 
ODBC e 
JNDI Use Result Streaming Cursor 


[ = J] sama | ws J 


Ls J 


图 8-55 MySQL 数据 库 连 接 的 配置 


在 图 8-54 中 单 击 目标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 维度 表 dim_staff; 在 
“关键 字 ” 选 项 卡 处 添加 关键 字 字段 staff_id, 用 于 指定 维度 表 字 段 和 * 值 映射 ?控件 流 中 字段 
的 比较 条 件 , 若 维度 表 中 的 数据 有 更 新 , 则 通过 字段 staff_id 进行 更 新 操作 ,如 图 8-56 所 示 ; 
在 “字段 ”选项 卡 处 添加 查询 /更 新 字段 ,用 于 更 新 目标 维度 表 中 的 字段 数据 ,如 图 8-57 所 
示 ; 在 “代理 关键 字段 ”后 的 下 拉 列 表 中 选择 staff_key, 并 指定 “创建 代理 键 ? 为 使 用 自 增 字 
段 ; 在 “Version 字段 "后 的 下 拉 列 表 中 选择 staff_version_number; 在 “Stream 日 期 字段 ”后 
的 下 拉 列 表 中 选择 last_update; 在 “开始 日 期 字段 ”后 的 下 拉 列 表 中 选择 staff_valid_from; 
在 “截止 日 期 字段 "后 的 下 拉 列 表 中 选择 staff_valid_through, 具 体 如 图 8-58 所 示 。 


k. 维度 查询 / 更 新 [= z 


HEER “维度 查询 /更 新 
更 新 维度 吗 ? [7| 


a a ls (BaRa) wees] 
上 FS ° D. 
目标 表 dim staff ME 
提交 数量 100 
BARF 
Faer O 
缓存 行 数 (0 = 缓存 所 有 ) 5000 
ETERNEL] 
关键 字 字 段 (to look up row in dimension): 


# ym 流 里 的 字段 


1 staff id staff id 


图 8-56 ”指定 输出 的 目标 表 和 添加 关键 字 字 段 


SESE “维度 查询/ 更新 
更 新 维度 吗 ? | 
数据 库 连 接 | sakila_dw - [ss] [Be 
目标 模式 ° 
目标 表 dim_staff MEI 
提交 数量 100 
e | 
Fa O 
缓存 行 数 (0 = SEFA) 5000 
> [+ 
查询 /更 新 字段 
£ ， 维 字段 P 更 新 的 维度 的 类 型 
1 staff first name first name 插入 
2 staff Jast name last name 插入 
3 staff store jd store jd 插入 
4 staff active active 插入 3 
@ 


图 8-57 添加 查询 /更 新 字段 
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rN 


staff key 


下 | 新 的 名 称 


创建 代理 刍 
O 使 用 表 最 记录 数 +1 


© 使 用 sequence | 


© 使 用 自 增 字段 


staff version_number 


last update 


staff valid from =i 
使 用 另外 一 个 可 用 的 开始 日 期 加 [Select Option> = 
staff valid through ~ 


最 小 的 年 份 1900 


最 大 年 份 2199 


Lao | 


ES 


图 8-58 指定 代理 关键 字段 Version 字段 ,Stream 日 期 字段 .开始 日 期 字段 和 截止 日 期 字段 


在 图 8-58 中 单 击 “ 确 定 " 按 钮 ,完成 “维度 查询 /更 新 "控件 的 配置 。 


二 


7. 运行 转换 load_dim_staff 


单 击 转 换 工作 区 顶部 的 号 按 钮 ,运行 创建 的 转换 load_dim_staff ,实现 加 载 员 工 数据 至 
员工 维度 表 dim_staff 中 ,具体 如 图 8-59 所 示 。 


SK load_dim staff 2 
P +H Dí. en BR FJ 10% ~ 


e° Í 2 f e° FE 
mom >Ë > >a 
BAA FAA 2 FRR sess 维度 查询 /更 新 
4 F z 
执行 结果 Dx 
Ë B= @ =55= [E= PREES |+ [E Metrics| ® Preview data] 
里 
£ DEER 复制 的 记录 行 数 È 5 输入 输出 更 新 拒绝 错误 激活 
1 表 给 入 o| o| 1 1 0 0 0 0 已 完成 
2 才 入 2 “1 2 0 0 0 0 已 完成 
3 FARR 0 2 2 0 0 0 0 0 已 完成 
4 (Besi SS 0 0 0 0 0 已 完成 
5 “维度 埋 询 /更 新 0 2 2 2 2 0 0 0 已 完成 
ee , 


图 8-59 运行 转换 load_dim_staff 


从 图 8-59 中 执行 结果 的 “步骤 度量 "可 以 看 出 “ 表 输 入 "控件 输入 1 条 数据 并 写 人 该 控 
件 ;* 表 输入 2” 控 件 从 “ 表 输 入 ”控件 中 读 取 1 条 数据 作为 查询 条 件 , 将 查询 的 2 条 数据 作为 
输入 并 写 人 该 控件 ”字段 选择 "控件 从 * 表 输入 2” 控 件 中 读 取 2 条 数据 并 写 入 该 控件 ;“ 值 
映射 "控件 从 “字段 选择 ”控件 中 读 取 2 条 数据 并 写 和 该 控件 ;* 维 度 查询 /更 新 "控件 输入 2 
条 数据 并 从 “ 值 映射 "控件 中 读 取 2 条 数据 , 写 人 该 控件 2 条 数据 ,最 终 进行 输出 。 


8. 查看 维度 表 dim_staff 中 的 数据 
通过 SQLyog 工具 ,查看 维度 表 dim_staff 是 否 已 成 功 插入 员工 数据 ,查看 结果 如 图 8-60 


309 


数据 清洗 
所 示 。 
ee | sraff v... |staff_... [staff va... [staff_active | 
8|1970-01-01 00:00| (NULL) (NULL) (NULL) | (NULL) 1 (NULL) (NULL) (NULL) 
= 9 1970-01-01 00:00 Mike Hillyer 1 1f 1 1900-01-01|2200-01-01 [Yes 
10|1970-01-01 00:00|Jon [Stephens 2| 2| 1/1900-01-01|2200-01-01 Yes 


图 8-60 维度 表 dim staff 


从 图 8-60 中 可 以 看 出 ,维度 表 dim_staff 中 已 插入 数据 ,说 明 我 们 成 功 实 现 了 加 载 员 工 
数据 至 员工 维度 表 dim_staff 中 。 


8.3.5 加 载 用 户 数据 至 用 户 维度 表 
下 面 通过 Kettle 工具 加 载 用 户 数据 至 用 户 维度 表 dim_customer, 具 体 实现 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 load_dim_customer, 并 添加 “ 表 输 入 ”控件 “映射 ( 子 转换 )” 
控件 “字段 选择 ”控件 “ 值 映射 "控件 “维度 查询 /更 新 ”控件 以 及 Hop 跳 连 接线 ,具体 效果 
如 图 8-61 所 示 。 


SX load_dim customer... £2 ] 
P +H 7 e BR 10% ~ 


国 -e> 国 一 -器 一- 国 一 - 国 一 ~- 区 | 


映射 (F38) 字段 选择 es 维度 查询 /更 新 


图 8-61 创建 转换 load_dim_customer 


2. 配置 “ 表 输 入 "控件 
双击 图 8-61 中 的 “ 表 输 入 "控件 ,进入 “ 表 输 入 "界面 ,如 图 8-62 所 示 。 


民 WAA 四 = 
SEZ SAA 
a 1 [s=] [we (wizards) 
a [sewsqussass..] 
SELECT <values> FROM <table name> WHERE <conditions> N 
Ç ; 
行 1 列 0 
允许 简易 转换 加 
Es SQL 语句 里 的 变量 回 
从 步 要 搬入 数据 s 
执 5 每 - 行 ? 口 
记录 数量 限制 0 ° 
[Cte] Lazo JEn | wo J 


A 8-62 “ 表 输 入 ”界面 
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在 图 8-62 中 单 击 “新 建 ? 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-63 所 示 。 


目 miamieis E) 
高 级 连接 名 称 : 
F. sakila dw 
s 连接 类 型 : as 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) REFER: 
MonetDB sakila_dw ° 
Native Mondrian J sos 
Neoview 3306 ° 
Netezza : 
OpenERP Server a 
? 了 | root ° 
连接 方式 : =s 
*..... ° 
Fesss Use Result Streaming Cursor 


图 8-63 MySQL 数据 库 连接 的 配置 


在 图 8-62 的 SQL 框 中 编写 用 于 获取 字段 customer_last_update 中 的 最 大 值 , 将 该 值 替 
换 为 1970-01-01 00:00:00 并 赋值 给 临时 字段 max_dim_customer_last_update; 单 击 “ 预 览 ” 
按钮 ,查看 临时 字段 max_dim_customer_last_update 是 否 将 默认 值 设置 为 1970-01-01 00; 
00:00, 具 体 如 图 8-64 和 图 8-65 所 示 。 


E, WAA = z 
DEZE SAA 
数据 库 连 接 [sakila dw ~| (Fa [F [Wazara...] 
ko [es 
SELECT a 
COALESCE(MAX(customer_last_update), "1970-01-01 00:00:00") 
ÀS max_dim_customer_last_update 
FROM dim_customer; - 
4 + 
行 1 列 0 
same E 
E SQL 语句 里 的 变量 回 
从 步 要 插入 数据 ~ 
执行 每 - 行 ? 口 
记录 数量 限制 0 ° 
[Cmo J mam |[ wao | 


图 8-64 编写 SQL 语句 


从 图 8-65 中 可 以 看 出 ,临时 字段 max_dim_customer_last_update 的 默认 值 设 置 为 
1970-01-01 00:00:00, 单 击 “ 关 闭 ”~“ 确 定 ” 按 钮 ,完成 “ 表 输 入 ”控件 的 配置 。 


Bia 数据 清洗 


Dams lele] x 


DE 34682. 的 数据 (1 rows) 
£ | max dim customer last update 
1 1970-01-01 00:00:00 


[ano | sxesw | 


图 8-65 预览 数据 


3. 配置 “ 表 输 入 2” 控 件 


双击 图 8-61 中 的 “ 表 输 入 2" 控件 ,进入 “ 表 输 入 "界面 ,如 图 8-66 所 示 。 


E, WAA = 
步骤 名 称 ” 表 给 入 2 
数据 库 连 接 = [Wizard.. ] 
es [amama] 
SELECT <values> FROM <table name> WHERE ¿conditions> y 
Ç ; 


图 8-66 “ 表 输 入 ”界面 


在 图 8-66 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-67 所 示 。 


在 图 8-66 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 数据 库 sakila 中 数据 表 customer 中 的 
最 新 数据 ,具体 如 图 8-68 所 示 。 


在 图 8-68 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输入 2” 控件 的 配置 。 这 里 需要 注意 的 是 ,获取 数 
据 表 customer 的 最 新 数据 中 包含 字段 address_id, 因 此 需要 创建 一 个 子 转换 ,用 于 实现 获取 
用 户 的 地 址 ,具体 实现 步 又 如 下 。 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 fetch_address( 该 转换 为 转换 load_dim_customer 的 子 转 
F) ,并 添加 “映射 输入 规范 ”控件 “数据 库 查询 ”控件 “过 滤 记 录 ” 控 件 “JavaScript 代码 ” 
控件 “字段 选择 ”控件 “映射 输出 规范 ”控件 以 及 Hop 跳 连接 线 , 具 体 效果 如 图 8-69 所 示 。 


2. 配置 “映射 输入 规范 ”控件 


双击 图 8-69 中 的 “映射 输入 规范 ”控件 ,进入 Mapping input specification 界面 ,如 图 8-70 
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目 masis 

高 级 连接 名 称 : 

a L 

= 连接 类 型 as 
MS SQL Server = ENER _ 
MS SQL Server (Native) localhost ° 
MariaDB R 
MaxDB (SAP DB) aeee OO 
MonetDB sakila ° 
Native Mondrian WS: 
Neoview 3306 ° 
Netezza 用 户 名 : 
OpenERP Server 
Oracle 7| root ° 
连接 方式 : 密码: 
A °. 
kee Use Result Streaming Cursor 


图 8-67 MySQL 数据 库 连 接 的 配置 


| first _nane 
| last_nane 
` email 


, create_date 
, last_update 
FROM customer where last_update > ? = 
. 


行 1 列 0 


罗 许 简易 转换 [P] 
E SQL 语句 里 的 变量 回 
从 步 村 插入 数据 TA = 
执行 每 - 行 ? 回 
记录 数量 限制 0 ° 


(Ohee) oa | wr | Ged 


图 8-68 ”编写 SQL 语句 


所 示 。 

在 图 8-70 中 添加 映射 的 字段 address_id, 该 字段 为 传递 的 参数 (由 于 转换 load_dim_ 
customer 中 “ 表 输 入 2” 控 件 流 获取 的 字段 address_id 用 于 查询 用 户 的 地 址 信息 ,而 后 续 数 
据 仓库 的 维度 表 数 据 也 需要 用 户 的 地 址 信息 ,因此 这 里 将 字段 address_id 作为 传递 的 参 
数 ) ,添加 完毕 后 单 击 “确定 ”按钮 ,完成 “映射 输入 规范 ”控件 的 配置 ,具体 如 图 8-71 所 示 。 
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ZX fetch address £3 
P OH DD 7 enn BR lo ~ 


Lala) (a >e (Fr 


映射 妨 入 规范 数据 库 查 询 。 数据 库 查 询 2 。 数据 库 查 询 3 mr O JavaScriptft 码 


图 8-69 创建 转换 fetch_address 


I Mapping input specification >ole] 


DEER RIWVEE 
对 于 这 个 mapping (sub-transformation) 要 求 的 输入 字段 : 
£ | 名 称 类 型 长 度 精度 
+ 


[EJ include unspecified fields, ordered by name 


š 


图 8-70 Mapping input specification 界面 


T, Mapping input specification 


DEER RIMET 
对 于 这 个 mapping (sub-transformation) ËR FR: 
£ £ 类 型 长 度 精度 
1 address id Integer 


[F] include unspecified fields, ordered by name 


o 
图 8-71 配置 “映射 输入 规范 ”控件 


3. 配置 “数据 库 查询 ”控件 


双击 图 8-69 中 的 “数据 库 查询 ”控件 ,进入 “数据 库 查询 ”界面 ,如 图 8-72 所 示 。 

在 图 8-72 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-73 所 示 。 

单 击 图 8-72 中 表 名 右 侧 的 “浏览 ?按钮 ,添加 数据 表 address; 在 “查询 所 需 的 关键 字 ” 框 
中 添加 查询 所 需 的 关键 字 字 段 address_id, 由 于 该 字段 是 唯一 的 ,因此 可 作为 数据 表 
address 中 数据 和 “映射 输入 规范 ”控件 流 中 数据 的 比较 条 件 ; 在 “查询 表 返 回 的 值 ” 框 中 添加 
查询 表 返 回 的 值 ,如 图 8-74 所 示 。 

在 图 8-74 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 查 询 ” 控 件 的 配置 。 


4. 配置 “数据 库 查询 2 控件 
双击 图 8-69 中 的 “数据 库 查 询 2” 控 件 ,进入 “数据 库 查 询 ” 界 面 .如 图 8-75 所 示 。 


第 8 章 综合 案例 一 构建 DVD 租赁 商店 数据 仓库 


A 数据 库 查 询 [= z] 
SEER 数据 库 查询 
Ws EE 
模式 名 称 ° (BUB). | 
EE lookup table ° 
ERE E 
Erho 
从 表 中 加 戴 所 有 数据 口 
可 问 所 需 的 关键 字 : 
£ BSR HAFI 字段 字段 2 
1 
查询 表 返回 的 值 : 
£ 字段 新 的 名 称 BA 关 型 
工 
maaua F) 
多 行 结果 时 失败 回 
排序 
图 8-72 “数据 库 查询 ”界面 
(5 sasse =) 
高 级 连接 名 称 : 
=m — 
am 连接 类 型， e= 
MS SQL Server z] NER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) a 
Mor sakila ° 
Native Mondrian Wes 
Neoview 3306 ° 
Netezza i 
OpenERP Server adia 
Oracle 了 | root ° 
连接 方式: = 
...... ° 
pea Use Result Streaming Cursor 


E 8-73 MySQL 数据 库 连 接 的 配置 


在 图 8-75 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-76 所 示 。 
单 击 图 8-75 中 表 名 后 的 “浏览 ”按钮 ,添加 数据 表 city; 在 “查询 所 需 的 关键 字 ” 框 中 添 
加 查询 所 需 的 关键 字 字 段 city_id, 作 为 数据 表 city 中 数据 与 “数据 库 查 询 2” 控 件 流 中 数据 
比较 的 条 件 ; 在 “查询 表 返 回 的 值 ? 框 中 添加 查询 表 返 回 的 值 ,如 图 8-77 所 示 。 
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[a es 
SEER MESSI 
TAREE sais (m) a=] (zaa) 
i * so) 
EZ address ° EA 
[idm 
erho 
MERR ALE O 
二 交 所 天 的 关键 字 : 
| 去， 表 字 息 EP" Fm | 
1 address id = address id 
SIRENA: 
£ 字段 新 的 名 称 ES E | 
1 address String 
2 address2 String 
3 district String 
4 chyjd Integer 
5 _postal_code String 
6 phone String 
查询 失败 则 忽略 加 
多 行 结果 时 失败 E 
排序 


图 8-74 配置 “数据 库 查 询 "控件 
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坦 鹿 所 委 的 关键 字 : 
ass EE 
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理 询 失败 则 忽略 F 
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“数据 库 查询 ”界面 
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B 数据库 连接 = 
=: 连接 名 称 : 
连接 池 se 
集群 连接 关 弄 , an 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) mes 
MonetDB sakila ° 
r= w—_ÑswsUViI 
Native Mondrian 加 os —  —_ 
Neoview 3306 ° 
Netezza : 
OpenERP Server orae 
Oracle 了 | root ° 
连接 方式 : 密码 : 
ee ° 
[ss Use Result Streaming Cursor 
图 8-76 MySQL 数据 库 连 接 的 配置 
n, 数据库 查询 aram 
步 邓 名 称 MEFE? 
BEREE [sakia ~| (a) (8) (Wizard. 
模式 名 称 © [B 
S2 Gy o [us 
GREE 
组 存 大 小 | 
从 妻 中 加 载 所 有 数据 器 ] 
Hase N Fm2 
= city id 
新 的 名 称 sa >m 
String 
Integer 
marrua 回 
多 行 结果 时 失败 
排序 
Ohee) [ao |[ mao J| smamse 


图 8-77 配置 “数据 库 查 询 2” 控 件 
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在 图 8-77 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 查询 2? 控 件 的 配置 。 
5. 配置 “数据 库 查询 3” 控 件 
双击 图 8-69 中 的 “数据 库 查 询 3” 控 件 ,进入 “数据 库 查 询 ” 界 面 ,如 图 8-78 所 示 。 


[a merma =[m| = J) 


数据 村 连接 | -eg ma-J 
© (asea) 
© las 


名 5 大 小 加 
从 囊 中 加 载 所 有 数据 器] 


坦 询 所 寺 的 关键 字 : 

|f 表 字段 HME *@ — +@2 
31 

查询 表 返 回 的 值 : 

£ * FOZ BU sm 


查询 失败 则 忽略 回 
多 行 结果 时 失败 回 


排序 
(Ore) — [| mo _J[ mao | #wsmxes | #mwamsm_ ) 
图 8-78 “数据 库 查询 ”界面 


在 图 8-78 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-79 所 示 。 


和 | 
se 连接 名 称 : 
sm isa 
aa 连接 类 型 , 设置 
MS SQL Server T| ENER O O O 
MS SQL Server (Native) localhost ° 
MariaDB m 
MaxDB (SAP DB) aoaia 
MonetDB sakila ° 
Native Mondrian J| #0% 
Neoview 3306 ° 
Netezza < 
OpenERP Server mi 
了 | root ° 
连接 方式: = 
s — 
Peg Use Result Streaming Cursor 
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E 8-79 MySQL 数据 库 连 接 的 配置 
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单 击 图 8-78 中 表 名 后 的 “浏览 ”按钮 ,添加 数据 表 country; 在 “查询 所 需 的 关键 字 ” 框 中 
添加 查询 所 需 的 关键 字 字 段 country_id, 用 作 指 定 字段 流 与 表 字 段 的 数据 进行 比较 的 条 件 ; 
在 “查询 表 返 回 的 值 ” 框 中 添加 查询 表 返 回 的 值 ,如 图 8-80 所 示 。 


a 数据 库 查 询 Eam) 


a © [uso 
aE © [es 
Ci d] 
rho 
AERAR R C) 
Esayan: 
£ 要 字段 Hanra 31 Fm 
1 country jd = country id 
SIMANA: 
£ ya 新 的 名称 BU sm 
1 country String 
manuan F 
多 行 结果 时 失败 加 
排序 
OHelp| | azo || mQ || 二 于 查询 关键 字 | | mwa 


图 8-80 配置 “数据 库 查 询 3 控件 
在 图 8-80 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 查询 3 控件 的 配置 。 
6. 配置 “过 滤 记 录 "” 控 件 


双击 图 8-69 中 的 “过 滤 记 录 ” 控 件 ,进入 “过 滤 记 录 ” 界 面 ,如 图 8-81 所 示 。 


kfield> 


field> 


(Ore) — oho] 


图 8-81 “过 滤 记 录 ” 界 面 


在 图 8-81 中 的 “条 件 ? 处 设置 过 滤 的 条 件 , 对 有 第 二 个 地 址 的 用 户 进 行 过 滤 操 作 ; 单 击 
左边 的 一 field> 框 ,弹出 “字段 ”对话 框 , 选 择 要 过 滤 的 字段 address2, 如 图 8-82 所 示 。 

在 图 8-82 中 单 击 “ 确 定 ” 按 钮 ,完成 过 滤 字 段 address2 的 选择 。 

单 击 图 8-81 中 的 “二” 框 ,弹出 “函数 :” 对 话 框 ,选择 过 滤 条 件 ( 这 里 选择 的 是 IS NOT 
NULL), 即 过 滤 指 定 字段 中 不 为 空 的 数据 ,如 图 8-83 所 示 。 


320 数据 清洗 


r == === 
district (String) 
ciy id (Integer) 


city (String) 
countryid (Integer) 
county (String) 


L meo) ][ wo] 


图 8-82 “字段 "对 话 框 图 8-83 “函数 :" 对 话 框 


在 图 8-83 中 单 击 “确定 ”按钮 ,完成 过 滤 条 件 的 选择 。 字 段 address2 的 过 滤 设置 如 
图 8-84 所 示 。 


address2 IS NOT NULL r 
E | N 
Os 


图 8-84 ”字段 address2 的 过 滤 设 置 


在 图 8-84 中 “发 送 true 数据 给 步骤 : "后 的 下 拉 列 表 中 选择 *JavaScript 代码 ”, 将 有 第 
二 个 地 址 的 用 户 放 在 JavaScript 控件 中 ,用 于 后 续 的 操作 ;在 “发 送 false 数据 给 步骤 : ”后 的 
下 拉 列 表 中 选择 "字段 选择 ”将 没有 第 二 个 地 址 的 用 户 进行 字段 选择 处 理 , 具 体 如 图 8-85 


所 示 。 
B 过 涉 沁 录 l=le| = J 
步 要 名称 过 涉 沁 录 

Bitru RAEE [JavaScript - 
发 详 false 数 据 给 步 本 :| 字 和 选择 - 

条件 : 

=s +Ñ 

Badress2 ES NoT NULL] F ] 

(Onee) [æo || wao | 


图 8-85 配置“ 过滤 记 录 ” 控 件 
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在 图 8-85 中 单 击 “确定 ?按钮 ,完成 * 过 滤 记 录 ” 控 件 的 配置 。 
7. 配置 “JavaScript 代码 ”控件 


双击 图 8-69 中 的 “JavaScript 代码 ”控件 ,进入 “JavaScript 代码 ”界面 , 勾 选 “兼容 模式 ?” 
复 选 框 ,使 得 “JavaScript 代码 ”控件 的 兼容 性 更 强 ; 在 JavaScript 代码 框 中 编写 代码 ,具体 如 
图 8-86 所 示 。 


[JavaScriptft 码 le = 
BRER JavaScriptft 玛 
Java script 函数 JavaScript : 
> Ë Transform Sera |(Ẹ Script 1 3 
b D Transform co| || ¿/Script here 
站 Transform Fu var address = address.getString() + " " + address2.getString(); 
a $|] Input fields 
> address id 
P addressge 
> address2.c ` 
P. district.get = , 
P cityjid.getl + | 行 S:0 
< asas] r Beo 优化 级 别 9 ° 
字段 
£ FREE BEH 。 类 型 KE ME EB 'Fieldname' S Rename to 值 
工 


图 8-86 Be “JavaScript 代码 ”控件 
在 图 8-86 中 单 击 “确定 ?按钮 ER“ JavaScript 代码 ”控件 的 配置 。 
8. 配置 “字段 选择 ”控件 


双击 图 8-69 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ” 界 面 ,在 “ 移 除 ” 选 项 卡 的“ 移 除 
的 字段 : ”处 添加 要 移 除 的 字段 ,具体 如 图 8-87 所 示 。 


z Lao |[ mso | 


图 8-87 添加 字段 


在 图 8-87 中 单 击 “确定 ?按钮 ,完成 “字段 选择 ?控件 的 配置 。 


9. 配置 “映射 "控件 


双击 图 8-61 中 的 “映射 ( 子 转换 )” 控 件 ,进入 “映射 (执行 子 转换 任务 )” 界 面 , 单 击 “ 转 
换 ” 处 的 Browser 按钮 ,选择 添加 转换 fetch_address, 用 于 获取 用 户 的 地 址 信息 ,具体 如 
图 8-88 所 示 。 


D 映射 册 行 子 转换 任务 ) 
pe 1 
BE FA) | 
ma 


S${Internal.Entry.Current.Directory}/fetch_addressktr  ® [Brewse-] 


TTEN] 
变量 名 字符 审 值 (里 面 里 可 以 使 用 变量 ) 
贺 从 父 转换 继承 所 有 变量 
[Otee] [azo | (mo) 


图 8-88 ”添加 转换 fetch_address 
在 图 8-88 中 单 击 “ 确 定 ” 按 钮 ,完成 “映射 "控件 的 配置 。 
10. 配置 “字段 选择 "控件 
双击 图 8-61 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ” 界 面 ,在 “元 数据 "选项 卡 的 “ 需 
要 改变 元 数据 的 字段 ”处 添加 字段 active, 由 于 数据 表 customer 中 字段 active 的 类 型 为 


tinyint, 因 此 需要 将 字段 active 的 类 型 改 为 String, 与 维度 表 dim _ customer 中 字段 
customer_active 的 类 型 对 应 ,具体 如 图 8-89 所 示 。 


Et 选择 /改名 值 = m = 


BEER Fma 


选择 和 修改 | 移 除 [元 数据 
需要 改变 元 数据 的 字段 : 


£ | 字段 名 称 改名 成 类 型 KE 精度 ”Binary to Normal? 格式 Date Format Lenient? 
1 active String s = 


[Ca 


图 8-89 添加 字段 active 


在 图 8-89 中 单 击 “ 确 定 ” 按 钮 ,完成 “字段 选择 ”控件 的 配置 。 
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11. 配置 “ 值 映射 "控件 


双击 图 8-61 中 的 “ 值 映 射 " 控 件 ,进入 “ 值 映射 "界面 ,在 “使 用 的 字段 名 :” 后 的 下 拉 列 表 
中 选择 字段 active; 在 “字段 值 " 框 中 添加 源 值 和 目标 值 .由 于 数据 表 customer 中 字段 active 
的 值 为 1 和 0, 对 应 的 是 Y 和 N. X IB $ Y B Ñ Yes. Ki N 替换 成 No, 具 体 如 图 8-90 
所 示 。 


人 值 时 时 = 
SEZ: EAN 
使 用 的 字段 名 : | active - 
目标 字段 名 =S) 
不 zc 配 时 的 默认 值 : No 
字段 值 : 
a 


目标 值 
Yes 
No 
Ohel) | ATO || RAO | 


图 8-90 配置 “ 值 映射 控件 
在 图 8-90 中 单 击 “ 确 定 ” 按 钮 .完成 “ 值 映 射 "控件 的 配置 。 
12. 配置 “维度 查询 /更 新 "控件 


双击 图 8-61 中 的 “维度 查询 /更 新 ”控件 ,进入 “维度 查询 /更 新 ”界面 ,具体 如 图 8-91 
所 示 。 

在 图 8-91 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-92 所 示 。 

在 图 8-91 中 单 击 目 标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 维度 表 dim _ 
customer; 在 “关键 字 ” 选 项 卡 处 添加 关键 字 字 段 customer_id, 用 于 指定 维度 表 字 段 和 流 字 
段 的 比较 条 件 ,如 图 8-93 所 示 ; 在 “字段 ”选项 卡 处 添加 查询 /更 新 字段 ,如 图 8-94 所 示 ; 在 
“代理 关键 字段 ”后 的 下 拉 列 表 中 选择 customer_key 为 代理 关键 字段 ,并 指定 “创建 代理 键 ” 
HEH HIN F Bt; E “Version 字段 ”后 的 下 拉 列 表 中 选择 customer_version_number; 在 
“Stream 日 期 字段 ”后 的 下 拉 列 表 中 选择 last_update; 在 “开始 日 期 字段 "后 的 下 拉 列 表 中 选 
F$ customer_valid_from; 在 “截止 日 期 字段 ”后 的 下 拉 列 表 中 选择 customer_valid_through， 
具体 如 图 8-95 所 示 。 

在 图 8-95 中 单 击 “确定 ”按钮 ,完成 “维度 查询 /更 新 ”控件 的 配置 。 


13. 运行 转换 load_dim_customer 


单 击 转换 工作 区 顶部 的 区 按钮 ,运行 创建 的 转换 load_dim_customer, 实 现 加 载 用 户 数 
据 至 用 户 维度 表 dim_customer 中 ,具体 如 图 8-96 所 示 。 

从 图 8-96 中 执行 结果 的 “步骤 度量 "可 以 看 出 ,“ 表 输入 ”控件 输入 1 条 数据 并 写 入 该 控 
件 ;“ 表 输入 2” 控 件 输入 599 条 数据 并 从 “ 表 输入 "控件 中 读 取 1 条 输入 , 写 人 该 控件 599 条 
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k. 维度 查询 /更 新 
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目标 表 dim table name 
提交 数量 100 
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ETRO = FKA) 5000 


-el 
关键 字 字 段 (to look up row in dimension): 
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date from - 最 小 的 年 份 1900 
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图 8-91 “维度 查询 /更 新 "界面 


Use Result Streaming Cursor 


图 8-92 MySQL 数据 库 连接 的 配置 
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SEER 维度 查询 /更 新 
更 新 维度 吗 ? 
BRER [sakila dw 
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目标 表 dim customer 
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使 用 缓存 
maer O 
ETRO = EFNA) 5000 


TREL 
WFF (to look up row in dimension): 


图 8-93 ”指定 输出 的 目标 表 和 添加 关键 字 字 段 


xe [字段 
查询 /更 新 字段 
£ mR HAER 更 新 的 维度 的 类 型 Ë 
1 customer_first.name first name 插入 
2 customer last name last name 插入 
3 customer_email email 插入 
4 customer_active active 插入 
5 customer_created create_date 插入 
6 customer_address address 插入 
7 customer district district 插入 
8 customer_postal_ code postal_ code 插入 
customer_phone_number phone 插入 
10 customer_city city 插入 
11 customer_country country 插入 
12 customer_last update last update 插入 =£ 
< —— u S) , 


图 8-94 添加 查询 /更 新 字段 
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O HERWIN 
© 使 有 sequence | 
© 使 用 自 增 字段 


新 的 名 称 


Version 字 段 |customer_version_number dl 


Stream 日 期 字段 |last_update = 


开始 日 期 字段 customer_valid from ~ 最 小 的 年 份 1900 
使 用 另外 一 个 可 用 的 开始 日 期 加 |<Select Option> ` ` 
截止 日 期 字段 |customer_valid_through ~ 最 大 年 份 2199 


[ao J mo | ame | so J 


图 8-95 ”指定 代理 关键 字段 .Version 字段 ,Stream 日 期 字段 .开始 日 期 字段 和 截止 日 期 字段 


m3263 数据 清洗 
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TAA JAA 2 映射 ( 子 转换 ) 字段 选择 fas 维度 查询 /更 新 
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执行 结果 Dx 
Ë B= (@ nnne [Z SEER [7 m] Metrics] dp Preview data) 
® 
£ L. 3 复制 的 记录 行 数 L. 5 G. $ 更 新 拒绝 R 激活 `d 
1 HAA 0 0 1 1 0 0 0 0 已 完成 
2 #*&A2 0 1 59 59 0 0 0 0 Ese 
3 BBF) 0 599 599 0 0 0 0 0 已 完成 
4 FR 0 59 599 0 0 0 0 0 已 完成 
5 (Bet 0 59 599 0 0 0 0 0 已 完成 
6 维度 查询 /更 新 O 59 599 59 599 0 0 0 E ~ 
一 


图 8-96 ”运行 转换 load_dim_customer 


数据 六 映射 ( 子 转换 ) "控件 从 * 表 输入 2 控件 中 读 取 599 条 数据 并 写 人 该 控件 六 字段 选择 ” 
控件 从 “映射 ( 子 转换 ) "控件 中 读 取 599 条 数据 并 写 入 该 控件 ;* 值 映射 "控件 从 “字段 选择 ” 
控件 中 读 取 599 条 数据 并 写 人 该 控件 六 维度 查询 /更 新 "控件 输入 599 条 数据 ,并 从 * 值 映 
射 控 件 中 读 取 599 条 数据 , 写 人 该 控件 ,最 终 进行 输出 。 


14. 查看 维度 表 dim_customer 中 的 数据 


通过 SQLyog 工具 ,查看 维度 表 dim_customer 是 否 已 成 功 插入 用 户 数据 ,查看 结果 如 
图 8-97 所 示 ( 这 里 只 展示 部 分 数据 ) 。 


Ta|=usto [customer_address customer district 
(SMITH 2006-02-14 |1913 Hanoi Way Nagasaki 
[PATRICIA [JOHNSON PATRICIA. JOHNSC|Yes (2006-02-14 |1121 Loja Avenue California 
LINDA  WILLIA}LINDA.WILLIAMSĖ Yes (2006-02-14 692 Joliet Street Attika 
BARBARA JONES [BARBARA.JONES@s|Yes (2006-02-14 1566 Inegl Manor [Mandalay 
ELIZABETIBRONN |ELIZABETH.BROW|Yes (2006-02-14 |53 Idfu Parkway |Nantou 
(JENNIFER [DAVIS (JENNIFER. DAVISĖ Yes (2006-02-14 |1795 Santiago de Texas 

MARIA MARIA.MILLER@se Yes 2006-02-14 |900 Santiago de C Central Serbia 
ISUSAN [HILSON (SUSAN. WILSON@se|Yes (2006-02-14 478 Joliet Way Hamilton 
MARGARET MOORE MARGARET.MOOREĻ Yes 2006-02-14 613 Korolev Drive Masqat 


2399 2006-02-15 04: 
2400 2006-02-15 04: 


[E| 2401 2006-02-15 04: m 
2402 2006-02-15 04:57:20 


2403|2006-02-15 04:57:20 

2404|2006-02-15 04:57:20 
[D] 2405/2006-02-15 04:57:20 
2406|2006-02-15 04:57:20 


e o 3 ela sloe s > Ë 


图 8-97 HÆR dim_customer 


从 图 8-97 中 可 以 看 出 ,维度 表 dim_customer 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 加 载 
用 户 数据 至 用 户 维 度 表 dim_customer。 


8.3.6 加 载 商 店 数据 至 商店 维度 表 
下 面 通过 Kettle 工具 加 载 商店 数据 至 商店 维度 表 dim_store, 具 体 实现 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 
使 用 Kettle 工具 创建 转换 load_dim_store, 并 添加 “ 表 输 入 ”控件 “映射 ( 子 转换 )” 控 
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件 “ 数 据 库 查询 ”控件 “维度 查询 /更 新 "控件 以 及 Hop 跳 连 接线 ,具体 效果 如 图 8-98 
所 示 。 


Z load dim store š 
P 7 H Tl. et QIR E 10% ~ 


国 -e。> E) > 器 -~ (aJ -可 .| 


映射 ( 子 转换 ) 


+ 


图 8-98 ”创建 转换 load_dim_store 


2. 配置 “ 表 输 入 ”控件 
双击 图 8-98 中 的 “ 表 输 入 "控件 ,进入 “ 表 输 入 "界面 ,如 图 8-99 所 示 。 


E, SA ele] 
DEREZE maA 
acii “| [me] te) een 
过 [ms 
SELECT <values> FROM <table name> WHERE cconditions> N 
1 
行 1 列 0 
允许 简易 转换 加 
ER SQL 语句 里 的 变量 回 
Maps sg | E 
执行 每 一 行 ? O 
记录 数量 限制 0 ° 
[Guee] [ao |( mam ]_ wao ] 


图 8-99 “ 表 输 入 "界面 


在 图 8-99 中 单 击 “ 新 建 "按钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 " 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-100 所 示 。 

在 图 8-99 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 字段 store_last_update 中 的 最 大 值 ， 
将 该 值 替换 为 1970-01-01 00:00:00 并 赋值 给 临时 字段 max_dim_store_last_update; 单 击 
“预览 ”按钮 ,查看 临时 字段 max_dim_store_last_update 是 否 将 默认 值 设置 为 1970-01-01 
00:00:00, 具 体 如 图 8-101 和 图 8-102 所 示 。 

从 图 8-102 中 可 以 看 出 ,临时 字段 max_dim_store_last_update 的 默认 值 设置 为 1970- 
01-01 00:00:00, 单 击 “ 关 闭 ”- 确 定 "按钮 ,完成 表 输 入 "控件 的 配置 。 


3. 配置 “ 表 输 入 2” 控 件 


双击 图 8-98 中 的 “ 表 输入 2” 控 件 ,进入 “ 表 输 入 ”界面 ,如 图 8-103 所 示 。 
在 图 8-103 中 单 击 “ 新 建 ” 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连接 的 配置 如 图 8-104 所 示 。 
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Ee E) 
=: BRR: 
pe sakila dw 
== 连接 类 型. i 
MS SQL Server z] ENE 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) ananas 
MonetDB sakila dw ° 
Native Mondrian 3 wi 
Neoview 3306 ° 
Netezza 
OpenERP Server rss 
Oracle 7| root ° 
连接 方式 : EB: 
ee ° 
P Use Result Streaming Cursor 
图 8-100 MySQL 数据 库 连接 的 配置 
E, BAA = s= 
DRZE AA 
SRRA [esia as ~ (faa) (a-s) (wizara) 
~ (Emsam. 
SELECT . 
COALESCE(MAX(store_last_update). "1970-01-01 00:00:00") 
ÀS max_dim_store_last_update 
FROM dim_store - 
i , 
行 4 列 14 
允许 简易 转换 加 
të SQL 语句 里 的 变量 回 
Mappia mig | ~ 
执行 每 一 行 ) 口 
记录 数量 限制 0 ° 


图 8-101 编写 SQL 语句 


l-le] x | 


HE TAA 


的 数据 (1 rows) 


Š | max dim store Jast update 
1 1970-01-01 00:00:00 


[szas | 


图 8-102 预览 数据 
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E. SA =la] x J 
SEB SEN 
T(S) (WE) Ward= 
SQL 
SELECT <values> FROM <table name> WHERE ¿<conditions> =P 
4 , 
行 1 列 0 
简易 转换 加 
a SQL 语句 里 的 变量 回 
从 步 导 搬入 数据 | - 
执行 每 - 行 ? 口 
记录 数量 限制 0 ° 
[Chae] [ao |[ ma |[ wao | 
A 8-103 “ 表 输 入 ”界面 
aa 
主机 名 称 
MS SQL Server (Native) localhost ° 
MariaDB 数据 库 名 称 : 
sakila ° 
s0 
3306 ° 
BPZ: 
root ° 
=ë 
eseese ° 
国 Use Result Streaming Cursor 
[e | 


图 8-104 MySQL 数据 库 连接 的 配置 


在 图 8-103 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 sakila 数据 库 中 store 数据 表 中 的 最 
新 数据 ,具体 如 图 8-105 所 示 。 
在 图 8-105 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输入 2” 控 件 的 配置 。 


4. 配置 “映射 "控件 


双击 图 8-98 中 的 “映射 ( 子 转换 )” 控 件 ,进入 “映射 (执行 子 转换 任务 )”" 界 面 , 单 击 “ 转 
换 ” 处 的 Browser 按钮 ,选择 添加 转换 fetch_address, 用 于 获取 用 户 的 地 址 信息 ,如 图 8-106 
所 示 。 

在 图 8-106 中 单 击 “ 确 定 ” 按 钮 ,完成 “映射 ( 子 转换 )” 控 件 的 配置 。 
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E maA [= J 
SEZ FEA? 

a ` [a] sz] [wasa] 
aa [asasan] 
SELECT - 

store_id 
, manager_staff_id ñ 
，address_id 
, last_update 
FROM store where last_update > ? - 
Li » 
行 1 列 0 
允许 简易 转换 回 
EA SQL 语句 里 的 变量 [P| 
从 步 要 插入 数据 [836 B 
执行 每 - 行 ? 回 
记录 数量 限制 0 ° 
Eao | msn |o] 
8-105 编写 SQL 语句 
O 映射 (执行 子 转换 任务 ) [= 
DREH 
BN ( 子 转换 ) g! 
转换 
SUnternalEntry.Current Directoryjfetch_addressktr © [Browse] 
CEON] 
变量 名 字符 率 值 (里面 里 可 以 使 用 变量 ) 
国 从 父 转换 继承 所 有 变量 
Gn eq 


图 8-106 ”添加 转换 fetch_address 


5. 配置 “数据 库 查询 ”控件 


双击 图 8-98 中 的 “数据 库 查询 ”控件 ,进入 “数据 库 查询 ”界面 ,如 图 8-107 所 示 。 

在 图 8-107 中 单 击 “ 新 建 " 按 钮 , 配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连接 的 配置 如 图 8-108 所 示 。 

单 击 图 8-107 中 表 名 右 侧 的 “浏览 ”按钮 ,添加 数据 表 staff, 用 于 查询 商店 员工 的 信息 ; 
在 “查询 所 需 的 关键 字 ” 框 中 添加 查询 所 需 的 关键 字 staff_id, 用 于 指定 表 字 有 段 和 流 字段 的 比 
较 条 件 ;在 “查询 表 返 回 的 值 ” 框 中 添加 查询 表 返 回 的 值 , 即 员工 姓氏 和 和 名字, 如 图 8-109 
所 示 。 


在 图 8-109 中 单 击 “ 确 定 ”按钮 ,完成 “数据 库 查询 ”控件 的 配置 。 


6. 
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A 数据 库 查 询 


EE lookup table 
(e zda 


Erho 


从 甫 中 加 戴 所 有 数据 口 


图 8-107 “数据 库 查询 ”界面 


高 级 连接 名 称 : 
Nb — 
sm 连接 类 型; e= 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) BERE 
° 
° 
° 
Native ° 
preg Use Result Siroaming Cursor 


La | 


Æ 8-108 MySQL 数据 库 连接 的 配置 


配置 “维度 查询 /更 新 ”控件 


双击 图 8-98 中 的 “维度 查询 /更 新 "控件 ,进入 “维度 查询 /更 新 "界面 ,具体 如 图 8-110 


所 示 。 


在 图 8-110 中 单 击 “ 新 建 ” 按 钮 ,配置 数据 库 连 接 , 配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-111 所 示 。 
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目标 表 dim table name opa 


提交 数量 100 

使 用 级 存 加 

mawe O 
EFFET = FKA) 5000 


EERE] 
关键 字 字 段 (to look up row in dimension): 
£ mem “mansa 

1 


代理 关键 字段 + | 新 的 客 称 


Version 字 段 [version 

Stream 日 期 字段 = 
FARRER [date from - 最 小 的 年 份 1900 

使 用 另外 一 个 可 用 的 开始 日 期 E | “Select Option> = = 
RLRE [date to - 最 大 年 份 2199 


Lao ][ wo |[ #w=a_ | 


a 


图 8-110 “维度 查询 /更 新 "界面 
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目 misis E) 
高 级 连接 名 称 : 
N sakila dw 
=E ie e= 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
Moo Ap DE 数据 库 名 称 : 
MonetDB sakila dw ° 
es 站 gn. 
Neoview 3306 ° 
u A = » 
连接 方式 : =ë: 
e — ee ° 
s Usa Resul Deron Omeur 
[于 J sana | ws | 
(ww | 
图 8-111 MySQL 数据 库 连接 的 配置 
在 图 8-110 中 单 击 “ 浏 览 ” 按 钮 ,选择 输出 的 目标 表 , 即 维度 表 dim_store; 在 “关键 字 ” 选 
项 卡 中 添加 关键 字 字段 store_id, 用 于 指定 维度 表 字 段 和 流 字段 的 比较 条 件 ,如 图 8-112 所 


示 ; 在 “字段 ”选项 卡 中 添加 查询 /更 新 字段 ,用 于 指定 维度 表 字 有 段 store_id 和 流 字段 store_id 
数据 一 致 需要 更 新 的 字段 ,如 图 8-113 所 示 ; 在 “代理 关键 字段 "后 的 下 拉 列 表 中 选择 store_ 
key, 并 指定 “创建 代理 键 ” 为 使 用 自 增 字 段 ;在 “Version 字段 ”后 的 下 拉 列 表 中 选择 store_ 
version_number; 在 “Stream 日 期 字段 "后 的 下 拉 列 表 中 选择 last_update; 在 “开始 日 期 字 
段 " 后 的 下 拉 列 表 中 选择 store_valid_from; 在 “截止 日 期 字段 "后 的 下 拉 列 表 中 选择 store_ 
valid_through, 具 体 如 图 8-114 所 示 。 


ka 维度 查询 / 更 新 lel = 


PS METREK 人 


— = -ee 


目标 表 dim_store as] 


提交 数量 100 
BREF 
mer O 
SEFTIRUO = SEFA) 5000 
E E] 
关键 字 字 段 (to look up row in dimension): 
£ R 流 里 的 字段 
1 store id store jd 
9 


图 8-112 ”指定 输出 的 目标 表 和 添加 关键 字 字 段 


数据 清洗 
x += 
音 询 /更 新 字段 
£ mn HAF 更 新 的 维度 的 类 型 
1 store manager staff id manager staff id 插入 
2 store last update last update 插入 
3 store address address 插入 
4 store_district district 插入 
5 store_postal_code postal_code 插入 
6 store_phone_number phone 插入 
7 store_city city 插入 
8 store_country country 插入 
9 store manager first name first name 插入 
10 store_manager last name last name 插入 3 
下 


图 8-113 ”添加 查询 /更 新 字段 


代理 关键 字段 [store key rner | 
amme 

O 使 用 表 最 记录 数 +1 

© 使 用 sequence | 
© 使 用 自 增 字 段 


Versionsf |store version_number = 

Stream 日 期 字段 last update ` 
开始 日 期 字段 store_valid_from ` 最 小 的 年 份 1900 

使 用 另外 一 个 可 用 的 开始 日 期 加 [<Select Option> a| = 
截止 日 期 字段 |store valid through ~ 最 大 年 份 2199 


[aso] [mo] Eae] -sor J - 


(Onse) 


A 8-114 指定 代理 关键 字段 Version 字段 ,Stream 日 期 字段 .开始 日 期 字段 和 截止 日 期 字段 


在 图 8-114 中 单 击 “ 确 定 ” 按 钮 .完成 “维度 查询 /更 新 "控件 的 配置 。 
7. 运行 转换 load_dim_store 


单 击 转换 工作 区 顶部 的 加 | 按钮 ,运行 创建 的 转换 load_dim_store, 实 现 加 载 商 店 数据 至 
商店 维度 表 dim_store, 具 体 如 图 8-115 所 示 。 

从 图 8-115 中 执行 结果 的 “步骤 度量 ”可 以 看 出 ,“ 表 输入 ”控件 输入 1 条 数据 并 写 人 该 
控件 ;* 表 输入 2” 控 件 输入 2 条 数据 ,并 从 “ 表 输 入 ”控件 中 读 取 1 条 数据 , 写 人 该 控件 2 条 
数据 六 映射 ( 子 转换 )" 控 件 从 * 表 输入 2” 控 件 中 读 取 2 条 数据 并 写 入 该 控件 ;“ 数 据 库 查 询 ” 
控件 输入 2 条 数据 ,并 从 “映射 ( 子 转换 )” 控 件 中 读 取 2 条 数据 , 写 人 该 控件 2 条 数据 ;“ 维 度 
查询 /更 新 ”控件 输入 2 条 数据 ,并 从 “数据 库 查询 ”控件 中 读 取 2 条 数据 并 写 人 该 控件 ,最 终 
进行 输出 。 


8. 查看 维度 表 dim_store 中 的 数据 


通过 SQLyog 工具 ,查看 维度 表 dim_store 是 否 已 成 功 插入 商店 数据 ,查看 结果 如 图 8-116 
所 示 。 
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Es, 
bP +I D. e ġe woga E 10% ~ 


ef es ss > 0O >J >a f 
FAA 2 映射 ( 子 转换 ) 数据 库 查 询 维度 查询 /更 新 

d r 
执行 结果 Dx 
Ë esmenes [Z PERR [7 tem] Metrics| dp Preview data| 
e 
gE zI 复制 的 记录 行 数 È sS @A h 更 新 ge mm ms ^ 
1 AA 0 0 1 1 0 0 0 0 已 完成 
2 #*&8&A2 0 L "2 = 0 0 0 0 已 完成 
3 “映射 (T$) 0 2 2 0 0 0 0 0 已 完成 
4 BERTA 0 2 r 1 2 0 0 0 0 已 完成 
5 “维度 查询 /更 新 0 2 2 2 2 0 0 0 已 完成 ~ 
5 


1|1970-01-01 00:00| (NULL) | (NULL) 
4 2006-02-15 04:57 147 MySakila DjAlberta (NULL) 
5|2006-02-15 04:57 2|28 MySQL Boul QLD | avr) 


Æ 8-116 维度 表 dim_store 


从 图 8-116 中 可 以 看 出 ,维度 表 dim_store 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 加 载 商 
店 数据 至 商店 维度 表 dim_store。 


8.3.7 ”加 载 演员 数据 至 演员 维度 表 
下 面 通过 Kettle 工具 加 载 演 员 数 据 至 演员 维度 表 dim_actor, 具 体 实现 步骤 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 load_dim_actor, 并 添加 * 表 输入 ”控件 “插入 /更 新 ”控件 以 
及 Hop 跳 连 接线 ,具体 效果 如 图 8-117 所 示 o 


X load dim actor £2 
>- N0-000 XQ = 


g—— a j 


插入 /更 新 


. F 


图 8-117 创建 转换 load_dim_actor 


2. 配置 “ 表 输 入 ”控件 


双击 图 8-117 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 8-118 所 示 。 
在 图 8-118 中 单 击 “ 新 建 ” 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
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E. SAA le x] 
EZR ”去 给 入 
数据 库 连 接 一 
[=] [Wi] (Wizard. 
sa BERAR.) 
SELECT <values> FROM <table name> WHERE <conditions> Jy 
4 » 
行 1 列 0 
允许 简易 转换 [PJ 
EH SQL 语句 里 的 变量 F 
从 步骤 插入 数据 
执行 每 _ 行 ? E] 
记录 数量 限制 0 ° 


图 8-118 “ 表 输 入 ”界面 


MySQL 数据 库 连 接 的 配置 如 图 8-119 所 示 。 


目 数据 库 连接 k= 

高 级 连接 名 称 

= = 

am 连接 类 型: l 
MS SQL Server E| =a 
MS SQL Server (Native) localhost ° 
MariaDB 
MEDB A BERZE 
MonetDB sakila-dw ° 
Native Mondrian J| sos: 
Neoview 3306 ° 
Netezza " 
OpenERP Server saka: 
lorade y y j root ° 
连接 方式 : sgk 

[72 © 
fen Uon anh Oe Onur 
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图 8-119 MySQL 数据 库 连接 的 配置 


在 图 8-118 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 字段 actor_last_update 中 的 最 大 值 ， 
将 该 值 替 换 为 1970-01-01 00:00:00 并 赋值 给 临时 字段 max_dim_actor_last_update; 单 击 
“预览 ”按钮 ,查看 临时 字段 max_dim_actor_last_update 是 否 将 默认 值 设 置 为 1970-01-01 
00:00:00, 具 体 如 图 8-120 和 图 8-121 所 示 。 

从 图 8-121 中 可 以 看 出 ,临时 字段 max_dim_actor_last_update 的 默认 值 设 置 为 1970- 
01-01 00; 00; 00, 单 击 “ 关 闭 ” 一 “确定 ”按钮 ,完成 “ 表 输入 ”控件 的 配置 。 
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RESYN lele] x J 


数据 库 连接 |sakila dw 


区 ~ [s=] [sz] (wizara) 


SELECT 
COALESCE(MAX(actor_last_update). "1970-01-01 00:00:00") 
ÀS max_dim_actor_last_update 


FROM din_actor; 
Ki 


行 1 列 0 


图 8-120 编写 SQL 语句 


E SAG 的 数据 (1 rows) 
| | max dim_actor Jast update 
1 1970-01-01 00:00:00 


S 


图 8-121 预览 数据 


3. 配置 “ 表 输入 2 控件 
双击 图 8-117 中 的 “ 表 输 入 2? 控 件 , 进 入 * 表 输入 ”界面 ,如 图 8-122 所 示 。 


Lazo J[ mse | [ao | 


图 8-122 “ 表 输 入 ”界面 


在 图 8-122 中 单 击 “新建 按钮 ,配置 数据 库 连 接 , 配 置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连接 的 配置 如 图 8-123 所 示 。 


š 


数据 清洗 
B 数据 库 连 接 
=. Hez 
p s 
连接 类 型 : 设置 
MS SQL Server Z) 主机 名 称 : 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 数据 库 名 称 
sakila © 
#05: 
3306 © 
用 户 名 : 
root ° 
=: 
aJ ...... ° 
p Use Result Streaming Cursor 
L 


图 8-123 MySQL 数据 库 连 接 的 配置 


在 图 8-122 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 数据 库 sakila 中 数据 表 actor 中 的 最 


新 数据 ,具体 如 图 8-124 所 示 。 


GESIN Ele = 


, last 


update 
FROM actor where last_update > ? 
1 


步 要 名 称 ” 表 给 入 2 
mamen [aie -Ee 
[SELECT 3 
actor_id 
first_name 
last. e 


行 1 列 0 
区 许 简易 转换 回 
Es SQL 语句 里 的 变量 加 


apipi sg [SA 


执行 每 一 行 ? 回 


记录 数量 限制 0 


[kason] msn fao) 


(Onar) 


图 8-124 编写 SQL 语句 
在 图 8-124 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输 入 2 控件 的 配置 。 
4. 配置 “插入 /更 新 "控件 


双击 图 8-117 中 的 “插入 /更 新 "控件 ,进入 “插入 /更 新 "界面 ， 


如 图 8-125 所 示 。 


在 图 8-125 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 


MySQL 数据 库 连 接 的 配置 如 图 8-126 所 示 。 


3 插入 /更 新 l= š J 
DERI TEN | EF 
DESER -| [Red 
目标 模式 © (DEE) 
目标 表 lookup table © aea 
提交 记录 数量 100 ° 
FREES: E 
用 来 查询 的 关键 字 : 
£ aR > 流 里 的 字段 1 流 里 的 字段 2 (ERFA | 
£ 
更 新 字段 : 
|i m are ax EZ 
[aaa 
(Onee) [ao |[ mwa] sa] 


8-125 “插入 /更 新 "界面 


[站 二 -IE 
=m wat 
连接 池 sakila dw 
Bai 连接 类 型 : 设置 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 数据 库 名 称 : 
MonetDB sakila dw © 
Native Mondrian E ans: 
Neoview 3306 网 
Netezza - 
OpenERP Server 用 户 名 : 
Oracle _ |P 
— eza ER: 
*..... ° 
preg Use Result Streaming Cursor 
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图 8-126 MySQL 数据 库 连接 的 配置 


单 击 图 8-125 中 目标 表 右 侧 的 “浏览 "按钮, 弹出“ 数据库 浏览 器 ”窗口 ,选择 目标 表 , 即 
维度 表 dim_actor, 具 体 如 图 8-127 所 示 。 

在 图 8-127 中 单 击 “ 获 取 字 段 " 按 钮 ,指定 查询 数据 需要 的 关键 字 , 这 里 选择 的 是 维度 表 
dim_actor 中 的 actor_id 字段 和 输入 流 里 的 actor_id 字段 ; 单 击 “ 获 取 和 更 新 字段 ”按钮 , 指 
定 需 要 更 新 的 字段 ,具体 如 图 8-128 所 示 。 

在 图 8-128 中 单 击 “ 确 定 ” 按 钮 .完成 “插入 /更 新 ”控件 的 配置 。 


数据 清洗 


3 插入 /更 新 [= s J 
BRER 插入 /更 新 
BEREE | salila_dw -| F eg 
Bae * see)] 
目标 表 | dim actor * pa 
提交 记录 数量 100 ° 
不 闵行 任 全 更 新 : E 
用 来 查询 的 关键 字 : 
jsm we nara amema O űl 
1 
更 新 字段 : 
J =x EET 
[Os] [æo J| wao J sq. |] 
图 8-127 选择 要 插入 数据 的 目标 表 dim_actor 
3 插入 /更 新 lele] 
步骤 名 称 插入 /更 新 
waman [sasa -EE E a 
jea * mam) 
目标 表 dim_actor MES 
提交 记录 数量 100 ° 
FITERE: 回 
用 来 查询 的 关键 
£ SR H 流 里 的 字段。 RENFRI [ama] 
1 ađorid = actor jd 
更 新 字段: 
ime ma m EZ 
1 actorid actor jd Y 
2 actor first name first name Y | (ssaa) 
3 actor last name lastname Y 
4 actorlastupdate lastupdate Y a 
[æo ]L wao |[ sq. | 


图 8-128 配置 “插入 /更 新 "控件 


5. 运行 转换 load_dim_actor 


单 击 转换 工作 区 项 部 的 区 按钮 ,运行 创建 的 转换 load_dim_actor, 实 现 加 载 演 员 数 据 至 
演员 维度 表 dim_actor, 具 体 如 图 8-129 所 示 。 

从 图 8-129 中 执行 结果 的 “步骤 度量 ”可 以 看 出 ,“ 表 输入 ”控件 输入 1 条 数据 并 写 入 该 
控件 ;“ 表 输入 2” 控 件 输入 200 条 数据 ,并 从 “ 表 输 入 ”控件 中 读 取 1 条 数据 , 写 入 该 控件 200 
条 数据 ;插入 /更 新 ”控件 输入 200 条 数据 ,并 从 “ 表 输 入 2” 控 件 中 读 取 200 条 数据 , 写 入 该 
控件 200 条 数据 ,最 终 进行 输出 。 
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[E 1oad dim actor EZ 
P r H Tl e y XZEYEJEA FJ 100% ~ 


EB 


JAA 插入 /更 新 

< + 
BX 

目 B= (O nnne iE SREE |= Hm] [Ë Metrics] 时 Preview data] 

里 

f DEER 复制 的 记录 行 数 = 5 输 和 输出 更 新 Ee 

1 SAA 0 0 ï 1 0 0 ° 

2 #*)2 0 1 200 200 0 0 0 

3 插入 /更 新 0 20 20 200 200 0 0 ~ 

| 上 


图 8-129 运行 转换 load_dim_actor 


6. 查看 维度 表 dim_actor 中 的 数据 


通过 SQLyog 工具 ,查看 维度 表 dim_actor 是 否 已 成 功 插入 演员 数据 ,查看 结果 如 图 8-130 
所 示 。 


2006-02-15 04:34:33 
202 2006-02-15 04:34:33 [WAHLBERG NICK 
203|2006-02-15 04:34:33 |CHASE ED 
204|2006-02-1S 04:34:33 [DAVIS JENNIFER 
205|2006-02-15 04:34:33 |LOLLOBRIGIDA JOHNNY 
206|2006-02-15 04:34:33 INICHOLSON IBETTE 
207|2006-02-15 04:34:33 |MOSTEL (GRACE 


ISPP 


图 8-130 维度 表 dim_actor 


从 图 8-130 中 可 以 看 出 ,维度 表 dim_actor 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 加 载 演 
员 数 据 至 演员 维度 表 dim_actor。 


8.3.8 加 载 电影 数据 至 电影 维度 表 
下 面 通过 Kettle 工具 加 载 电影 数据 至 电影 维度 表 dim_film, 具 体 实现 步 又 如 下 。 
1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 load_dim_film, 并 添加 “ 表 输 入 ”控件 “数据 库 查询 ”控件 、 
“ 值 映射 "控件 “ 列 拆 分 为 多 行 " 控 件 “ 增 加 常量 "控件 “ 列 转行 "控件 “计算 器 "控件 “数据 
库 连 接 ” 控 件 “ 联 合 查 询 / 更 新 ”控件 “分 组 ”控件 “ 流 查 询 ” 控 件 “ 插 入 /更 新 ”控件 以 及 
Hop 跳 连接 线 , 具 体 效果 如 图 8-131 所 示 。 


2. 配置 “ 表 输 入 ”控件 


双击 图 8-131 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 8-132 所 示 。 
在 图 8-132 中 单 击 “ 新 建 ” 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
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图 8-132 “ 表 输 入 ”界面 


MySQL 数据 库 连 接 的 配置 如 图 8-133 所 示 。 
在 图 8-132 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 字段 film_last_update 中 的 最 大 值 ， 


将 该 值 替换 为 1970-01-01 00:00:00 并 赋值 给 临时 字段 max_dim_film_last_update; 单 击 
“预览 ”按钮 ,查看 临时 字段 max_dim_film_last_update 是 否 将 默认 值 设置 为 1970-01-01 
00:00:00”, 具 体 如 图 8-134 和 图 8-135 所 示 。 

从 图 8-135 中 可 以 看 出 ,临时 字段 max_dim_film_last_update 的 默认 值 设 置 为 1970- 
01-01 00:00:00, 单 击 “ 关 闭 ”- 盖 确定 ”按钮 ,完成 “ 表 输 入 ”控件 的 配置 。 


3. 配置 “ 表 输 入 2 控件 


双击 图 8-131 中 的 “ 表 输 入 2” 控 件 ,进入 “ 表 输 入 ”界面 ,如 图 8-136 所 示 。 
在 图 8-136 中 单 击 “ 新 建 ”" 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-137 所 示 。 
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waw 
高 级 连接 名 称 : 
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Netezza 
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Fe [Z| Use Result Streaming Cursor 
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Æ 8-133 MySQL 数据 库 连接 的 配置 


E SRA = 
DEER FAA 
pa asss -Eo Ee 
SQL 
COATESCE(MAX(fi 1x_last_update), "1970-01-01 00:00:00") i 


ÀS max_dim_film last_update 
FROM dim_film 
. 


行 1 列 0 


DR SAA 的 数据 (1 rows) 


| max_dim_film_last update 
1 1970-01-01 00:00:00 


A 8-135 ”预览 数据 


图 8-136 “ 表 输 入 ”界面 


目 数据 库 连接 ss 
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MariaDB 
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图 8-137 MySQL 数据 库 连 接 的 配置 


在 图 8-136 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 数据 库 sakila 中 数据 表 film 中 的 最 
新 数据 ,具体 如 图 8-138 所 示 。 
在 图 8-138 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输入 2” 控 件 的 配置 。 


4. 配置 “数据 库 查询 ”控件 


双击 图 8-131 中 的 “数据 库 查询 ”控件 ,进入 “数据 库 查询 "界面 ,如 图 8-139 所 示 。 

在 图 8-139 中 单 击 “新 建 ”" 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-140 所 示 。 

单 击 图 8-139 中 表 名 后 的 “浏览 ”按钮 ,添加 数据 表 language, 用 于 查询 电影 的 语言 ,如 
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k skie -l(a [sss-] [enet] 
2 [masanna] 
CT z 
film_id 
title 
description 


, CAST(release_year AS UNSIGNED) AS release_year 
language_id 
. original language_id 

rental_duration 


,replacenent_cost 
.rating 
， special_features 


, last_update 
FROM film where last_update > ? ` 
4 上 
行 1 0 
prase E 
ns SQL 语句 里 的 变量 回 
从 步 村 插入 数据 FRA ~ 
执行 每 一 行 ? 回 
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图 8-138 编写 SQL 语句 


A 数据 库 查 询 lele] x 


i 
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E 
Ji 


lookup table © [is] 
使 用 组 存 回 
sezo 


从 表 中 加 载 所 有 数据 器] 


图 8-139 “数据 库 查询 ”界面 


图 8-141 所 示 。 

在 图 8-141 的 “查询 所 需 的 关键 字 ” 框 中 添加 查询 所 需 的 关键 字 字 段 language_id, 用 于 
指定 表 字段 和 流 字段 的 比较 条 件 ; 在 “查询 表 返 回 的 值 ” 框 中 添加 查询 表 返 回 的 字段 name, 
并 重 命 名 为 language, 如 图 8-142 所 示 。 

在 图 8-142 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 查询 ”控件 的 配置 。 
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Æ 8-140 MySQL 数据 库 连接 的 配置 
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查询 雪 返 回 的 值 : 
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图 8-141 添加 数据 表 language 


5. 配置 “数据 库 查询 2 控件 


双击 图 8-131 中 的 “数据 库 查询 2” 控 件 , 进 入 “数据 库 查询 ”界面 ,如 图 8-143 所 示 。 
在 图 8-143 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 


MySQL 数据 库 连接 的 配置 如 图 8-144 所 示 。 
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图 8-143 “数据 库 查询 ”界面 


单 击 图 8-143 中 表 名 后 的 “浏览 ”按钮 ,添加 数据 表 language, 用 于 查询 电影 原版 的 语 
言 , 如 图 8-145 所 示 。 

在 图 8-145 的 “查询 所 需 的 关键 字 ” 框 中 添加 查询 所 需 的 关键 字 字 段 language_id 和 
original_language, 用 于 指定 表 字 段 和 流 字段 的 比较 条 件 ;在 “查询 表 返 回 的 值 ? 框 中 添加 查 
询 表 返 回 字 段 name 并 重 命名 为 original_language, 若 对 于 电影 原版 语言 为 Null 值 , 则 设置 
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图 8-144 MySQL 数据 库 连 接 的 配置 
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图 8-145 ”添加 数据 表 language 


默认 值 为 Not Applicable, 如 图 8-146 所 示 。 
在 图 8-146 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 查询 2 控件 的 配置 。 


6. 配置 “ 值 映 射 "控件 
双击 图 8-131 中 的 “ 值 映射 "控件 ,进入 “ 值 映射 "界面 ,在 “使 用 的 字段 名 ”后 的 下 拉 列 表 
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a masana [= = sss 
SEER MESEI 2 
数据 库 连 接 |sakila 过 (Wizard... | 
* ses) 
FE language ° 
amer F) 
所 本 大 小 加 
从 表 中 加 戴 所 有 数据 口 
所 需 的 关键 字 : 
BESS i EN 字 和 2 
1 language id - original language id 
TRENA: 
ES 新 的 名 称 mA >m 
1 name original language Not Applicable String 
查询 失败 则 忽略 加 
多 行 结果 时 失败 回 
排序 


[eb] [ azo J| mao J] #wmsxe= | amans | 


图 8-146 配置 “数据 库 查 询 2 控件 


中 选择 字段 rating ,指定 对 电影 级 别 的 字段 rating 进行 映射 ;在 “目标 字段 名 ( 空 王 柳 盖 )” 处 
添加 rating_text 字段 ,用 于 存储 目标 值 ;在 “字段 值 " 框 中 添加 源 值 和 目标 值 ,其 中 , 源 值 为 
G( 大 众 级 ,所 有 年 龄 的 观众 均 可 观看 )、PG (普通 级 ,建议 在 父母 的 陪伴 下 观看 )、PG-13( 普 
通 级 ,不 适 于 13 岁 以 下 儿童 ,需要 父母 陪同 观看 )、R( 限 制 级 ,17 岁 以 下 观众 必须 由 父母 或 
者 监护 陪伴 才能 观看 )、NC-17( 禁 止 17 岁 或 者 17 岁 以 下 观众 观看 ), 这 些 均 为 美国 电影 分 
级 级 别 的 简称 ,对 应 的 全 称 目标 值 为 General Audiences、 Parental Guidance Suggested、 
Parents Strongly Cautioned, Restricted, No One Under 17 Admitted, 如 图 8-147 所 示 。 


人 Be; celal z J) 
步 要 名 称 ， (ms 
使 用 的 字段 名 : [rating = 
REFRE G=) : ating text 
不 EOP 时 的 默认 信 : Not Vet Rated 

+e: 
£ më 目标 值 = 
1 G General Audiences 
2 | pG Parental Guidance Suggested 
3 PG-13 Parents Strongly Cautioned 
“IR Restricted 
5 NC-17 No One Under 17 Admitted - 


A 8-147 REER H 


在 图 8-147 中 单 击 “确定 ?按钮 ,完成 “ 值 映射 ?控件 的 配置 。 
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7. 配置 “ 列 拆 分 为 多 行 ”控件 


双击 图 8-131 中 的 “ 列 拆 分 为 多 行 ”控件 .进入 “ 列 拆 分 为 多 行 " 界 面 ,由 于 special_ 
features 字段 表示 的 是 电影 的 特点 ,而 电影 的 特点 有 多 个 ,因此 要 进行 拆 分 ;在 “要 拆 分 的 字 
段 ? 后 的 下 拉 列 表 中 选择 要 拆 分 的 字段 special_features; 在 “分 隔 符 ”处 指定 分 隔 符 “,”; 
“新 字段 名 ” 框 中 添加 新 的 字段 名 ,用 于 存放 利用 分 隔 符 分 隔 后 的 数据 ,具体 如 图 8-148 


所 示 。 
20 列 拆 分 为 多 行 l-le] z J 
字段 名 称 列 拆 分 为 多 行 
要 拆 分 的 字段 |special features -@ 
Sm. ° 
分 隔 符 旺 一 个 正则 表达 式 回 
新 字段 名 special feature 
附 jp 字段 
输出 中 包括 行 号 Dase ° 
对 接收 到 的 每 一 行 重 轩 行 号 ? [| 
(Onee) 
Ú 


图 8-148 配置 “ 列 拆 分 为 多 行 " 控 件 
在 图 8-148 中 单 击 “确定 ”按钮 ,完成 * 列 拆 分 为 多 行 ? 控 件 的 配置 。 
8. 配置 “增加 常量 "控件 


双击 图 8-131 中 的 “增加 常量 ”控件 ,进入 “增加 常量 "界面, 在“ 字段" 框 中 添加 常量 字段 
Yes 和 No, 并 指定 值 为 Yes 和 No, 用 于 后 续 判 断 某 电 影 是 否 有 预告 片 . 是 否 有 评论 .是否 删 
减 片段 以 及 是 否 有 幕后 等 内 容 , 若 有 , 则 用 Yes 标识 ,反之 用 No 标识 ,如 图 8-149 所 示 。 


s (see J me J 


图 8-149 配置 “增加 常量 ”控件 


在 图 8-149 中 单 击 “ 确 定 ” 按 钮 ,完成 “增加 常量 ”控件 的 配置 。 
9. 配置 “ 列 转行 "控件 


双击 图 8-131 中 的 “ 列 转行 ”控件 ,进入 “ 列 转行 "界面 ,在 “关键 字段 "后 的 下 拉 列 表 中 选 
择 关 键 字段 special_feature, 由 于 字段 special_feature 中 包含 一 个 或 多 个 内 容 , 因 此 需要 对 
字段 special_feature 进行 列 转行 操作 ;在 “构成 分 组 的 字段 ” 框 中 添加 分 组 字段 ;在 “目标 字 
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段 " 框 中 添加 目标 字段 ,具体 如 图 8-150 所 示 。 


E” PHT 


DRZE 列 转行 


IFR [special feature 


| 


| 


filmid 

title 

description 

release year 
language jd 
originalanguage jd 
rental_duration 
rental_rate 


senseow>w n e [w] 


Ë 
š. 
8 


| 目标 字段 数据 字段 “关键 字 值 类 型 
1 tmp_has trailers Yes Trailers String 
2 “mp_has_commentaries Yes Commentaries String 
3 tmp_has deleted_scenes Yes Deleted Scenes — String 
4 tmp_has_behind.the_ Scenes Yes Behind the Scenes String 
i 


==. ma] 


图 8-150 配置 “ 列 转行 "控件 
在 图 8-150 中 单 击 * 确 定 " 按 钮 .完成 “ 列 转行 ?控件 的 配置 。 
10. 配置 “计算 器 "控件 


双击 图 8-131 中 的 “计算 器 "控件 ,进入 “计算 器 "界面 ,在 “字段 ”处 添加 新 字段 ,用 于 存 
储 将 “ 列 转行 "控件 流 中 的 字段 special_feature 的 NULL 值 蔡 换 成 No 的 数据 ,具体 如 图 8-151 


所 示 。 
日 计算 器 lele] 
DEER — 
una 


[Z] Throw an error on non existing files 


Fe 

f a 计算 FRA Fa FGC Axm 长 度 
1 has behind the_Scenes NVL(A,B) tmp_has_behind_the_ Scenes No String 
2 has_commentaries NVL(A B) tmp_has_commentaries No String 
3 has deleted_scenes NVL(A,B) tmp_has_deleted_scenes No String 
4 hastrailers NVL(A, B) tmp_has trailers No String 
—əph,ns-.—&<S1>aD>Ñ% =!|ss u...  — 2 


A 8-151 配置 “计算 器 "控件 
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在 图 8-151 中 ,NVL(A,B) 的 含义 是 实现 将 字段 A 中 的 空 值 蔡 换 成 字段 B( 即 No) , 单 
击 “ 确 定 ” 按 钮 ,完成 “计算 器 ”控件 的 配置 。 
11. 配置 数据库 连接 ”控件 
双击 图 8-131 中 的 “数据 库 连接 ”控件 ,进入 Database join 界面 ,如 图 8-152 所 示 。 


B> Database join = = 


DEER 数据库 连接 


me ~ [s=] (i was) 


. F 


Line 1 Column 0 


Number of rows to return 0 
Outer join? E] 
Replace variables F] 
The parameters to use: 


É Parameter fieldname Parameter Type 
E 


z [ao J| mo J 


Œ 8-152 Database join 界面 


在 图 8-152 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-153 所 示 。 


(sssi waw O) 
=m ssam 
连接 池 sakila 
ar 连接 类 型: 设置 
MS SQL Server T ENER OO 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 数据 库 名 称 : 
MonetDB sakila ° 
Native Mondrian wasa m= 
Neoview 3305 o 
Netezza z 
OpenERP Server 用 六 名: 
7| root ° 
连接 方式 : = 
eesse v 
Peg Use Result Streaming Cursor 
[| w° ][ w | 
L 


Æ 8-153 MySQL 数据 库 连接 的 配置 


在 图 8-152 的 SQL 框 中 编写 SQL 语句 ,用 于 根据 电影 id 获取 电影 的 分 类 ;在 The 
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parameters to use 框 中 添加 编写 SQL 语句 需要 的 参数 , 即 film_id,“ 计 算 器 ”控件 流 中 的 字 
段 film_id 作为 参数 进行 传递 , 供 “ 数 据 库 连接 ”控件 使 用 ,具体 如 图 8-154 所 示 。 


B: Database join 


[sIm] x J 


py ~ [se) [sas] (Wizara) 


[select category_id 
fron film_category 


where film_id = ? 
. » 
Line 3 Column 17 


Number of rows to return 0 


Outer join? E] 
Replace variables 回 
The parameters to use: 

| É Parameter fieldname 
1 flmjid 


Parameter Type 
Integer 


[azo |[ wo |[ amre] 


A 8-154 ”配置 “数据 库 连接 ”控件 


在 图 8-154 中 单 击 “ 确 定 "按钮 ,完成 “数据 库 连接 "控件 的 配置 。 
12. 配置 “数据 库 查 询 3” 控 件 


双击 图 8-131 中 的 “数据 库 查询 3” 控 件 , 进 入 “数据 库 查 询 ” 界 面 ,如 图 8-155 所 示 。 


O, 数据 库 查 询 Ele = 
DEER 数据 库 查询 2 
~ [es] [saa] (Wizara) 
Ses © (nme) 
EZ lookup table 9 [Ws] 
emar E 
arho 
从 表 中 加 戴 所 有 数据 C 
uu s sal 
f SIR HE *@ 。 +@2 
1 
SANA: 
£ FR 。 新 的 名 称 BA 关 弄 
z 
喜 疝 失败 则 忽略 回 
多 行 结果 时 失 双 加 


排序 
(Orie) [ao J mo ) #wmmxe=]| #wmam=m ] 


图 8-155 “数据 库 查询 ”界面 


在 图 8-155 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。MySQL 
数据 库 连 接 的 配置 如 图 8-156 所 示 。 


=) 


sso — — 
P Use Result Streaming Cursor 
U Cm JÜ ma | 
E 8-156 MySQL 数据 库 连 接 的 配置 


单 击 图 8-155 中 表 名 后 的 “浏览 ”按钮 ,添加 数据 表 category, 用 于 获取 电影 分 类 的 id; 
在 “查询 所 需 的 关键 字 ” 框 中 添加 查询 所 需 的 关键 字 字 段 category_id, 用 于 指定 表 字 段 和 流 


字段 的 比较 条 件 ;在 “查询 表 返 回 的 值 ” 框 中 添加 查询 表 返 回 的 值 , 即 name, 并 重 命名 为 
category, 如 图 8-157 所 示 。 


8, 数据 库 查询 Lel = 


pune we 
* po) 
FE category © Es) 
amze E 
EFAA o 
从 表 中 加 载 所 有 数据 C 
二 所 需 的 关键 字 : 
£ | 表 字 段 比 加 所作 符 EZY Fm2 
1 category_id = category_id 
查询 表 返 回 的 值 : 
ES 新 的 名 称 m 类 型 
1 name category None 
marra 回 
多 行 结果 时 失败 回 


° [ æo J mo | aame ] | amann | 
图 8-157 配置 “数据 库 查询 3” 控 件 


在 图 8-157 中 单 击 “确定 ”按钮 ,完成 “数据 库 查 询 3” 控 件 的 配置 。 
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13. 配置 “增加 常量 2 控件 


双击 图 8-131 中 的 “增加 常量 2? 控 件 , 进 入 “增加 常量 ?界面 ,在 “字段 ? 框 中 添加 常量 字 
段 Yes, 由 于 在 “增加 常量 ”控件 中 设置 的 常量 Yes 已 经 被 蔡 换 , 所 以 需要 添加 一 个 常量 , 具 
体 如 图 8-158 所 示 。 


ü: 增加 军 量 lela z J 


图 8-158 配置 “增加 常量 2” 控件 
在 图 8-158 中 单 击 “确定 ”按钮 .完成 “增加 常量 2” 控 件 的 配置 。 
14. 配置 “ 列 转行 2” 控 件 


双击 图 8-131 中 的 “ 列 转行 2” 控 件 ,进入 “ 列 转行 "界面 ,在 “关键 字段 "后 的 下 拉 列 表 中 
选择 关键 字段 category ,根据 电影 分 类 的 名 称 对 电影 进行 分 类 ;在 “构成 分 组 的 字段 " 框 中 添 
加 分 组 字段 ,如 图 8-159 所 示 ; 在 “目标 字段 " 框 中 添加 目标 字段 ,具体 如 图 8-160 所 示 。 

在 图 8-160 中 单 击 “ 确 定 ” 按 钮 .完成 “ 列 转行 ”控件 的 配置 。 


15. 配置 “计算 器 2” 控 件 


双击 图 8-131 中 的 “计算 器 2” 控件 ,进入 * 计 算 器 "界面 ,在 “字段 "处 添加 新 字段 ,用 于 将 
“ 列 转行 2" 控 件 流 中 字段 category 中 的 NULL 值 蔡 换 成 No, 具 体 如 图 8-161 所 示 。 
在 图 8-161 中 单 击 “ 确 定 ” 按 钮 ,完成 “计算 器 2” 控 件 的 配置 。 


16. 配置 “联合 查询 /更 新 ”控件 


双击 图 8-131 中 的 “联合 查询 /更 新 ”控件 ,进入 “联合 查询 /更 新 ”界面 ,如 图 8-162 
所 示 。 

在 图 8-162 中 单 击 “ 新 建 ”" 按 钮 , 配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-163 所 示 。 

单 击 图 8-162 中 目标 表 右 侧 的 “浏览 ”按钮 ,选择 目标 表 , 即 维度 表 dim_film, 用 于 加 载 
最 新 的 电影 维度 数据 ,在 “代理 关键 字 ” 框 中 添加 代理 关键 字段 .并 指定 创建 代理 键 为 自 增 字 
段 ,如 图 8-164 所 示 ; 在 “关键 字段 " 框 中 添加 维度 字段 和 流 里 的 字段 ,具体 如 图 8-165 所 示 。 

单 击 图 8-165 中 的 “确定 ”按钮 .完成 “联合 查询 /更 新 "控件 的 配置 。 


17. 配置 “数据 库 连接 2? 控 件 
双击 图 8-131 中 的 “数据 库 连接 2” 控 件 ,进入 Database join 界面 ,如 图 8-166 所 示 。 


步 检 名称” 列 转行 2 


category 


| @ S W Q & wn m |w| 


s 


Ee 
filmid 
title 
description 
release year 
language id 
original language_id 
rental_duration 
rental_rate 
length 
replacement_cost 
rating 
special features 
last update 
language 
original language 
rating_text 
No 
tmp_has trailers 
tmp_has_ commentaries 
tmp_has_behind the_Scenes 
has_behind the_Scenes 
has_commentaries 
has_deleted_scenes 
has_trailers 
category_id 
Yes 


"| 


图 8-159 添加 关键 字段 和 构成 分 组 的 字段 


目标 字段: 

| 目标 字段 BEFA wes 1 EE 
1 tmp_js_ category_action Yes Action String 

2 tmpjis_category_animation Yes Animation String 

3 tmpjis_category_children Yes Children String 

4 tmp_is_category_classics Yes Classics String 

5 tmpjis_category_comedy Yes Comedy String 

6 tmp_is_category-documentary Yes Documentary String 

7 tmp_is_category-drama Yes Drama String 

8 tmpjis_category family Yes Family String 

9 tmp_is_category_foreign Yes Foreign String 

10 tmp_is_category-games Yes Games String 

11 tmp js categor_ horror Yes Horror String 

12 tmp_is_category_music Yes Music String 

13 tmpjis_category_new Yes New String 

14 tmpjis_category_sci-fi Yes Sc-F String 

15 tmpjis_category sports Yes Sports String 

16 tmpjis_category travel Yes Travel String - 


图 8-160 添加 目标 字段 
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FP lal 
DEER 一 : 
计算 器 2 
国 Throw an error on non existing files 
*g: 
£ 新 字段 计算 *@A Fa Fec “sm z 
4 NVL(A, B) tmp_is_category_action No String 
2 film_is_category_animation NVL(A, B) tmp_is_category_animation No String 
3 filmjis_category_children NVAB) 。 tmpjs_category children No String 
4 film js_category.classics No String 
5 fim_s_category-comedy No String 
6 film js_category_ documentary No String 
7 film js_category_drama No String 
8 ; category family No String 
9 film_js_category foreign No String 
10 film is_ category games No String 
11 filmjis_category_horror No String 
12 film_is_category_music No String 
13 film_is_category_new No String 
14 film js_category.sci-fi No String 
15 film_is_category_sports No String 

No String - 
, 
Ç [azo] [Lawo] 


图 8-161 配置 “计算 器 2” 控 件 


ki 联合 查询 /更 新 = = 
DEER 联合 查询 /更 新 
目标 模式 ° 
目标 表 dim table name ts 
提交 记录 数量 100 组 存 大 小 9999 
Pre-load the cache? [E] 
关键 字段 (在 表 中 查询 记录 ): 
£ | 维度 字段 — maypa 
z 


代理 关键 字 technical/surrogate key field 
创建 代理 键 
图 使 用 表 里 的 最 大 记录 数 + 1 
© 使 用 sequence 
O 使 用 自 增 字段 
移 除 查询 字段 ?加 
使 用 hashcode? F] 
表 中 的 Hashcode 字段 


记录 最 近 更 新 日 期 的 字段 (可 运 ) 


z [azo J| wo J| saza | 


图 8-162 “联合 查询 /更 新 "界面 
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= 
高 级 连接 名 称 : 
= a 
集群 paue am 
MS SQL Server g =s 
MS SQL Server (Native) localhost ° 
nipa = 
MonetDB sakila dw ° 
#05: 
3306 ° 
用 户 名 : 
root ° 
ER 
| s..... ° 
jse Result Streaming Cursor 


Cm | 


图 8-163 MySQL 数据 库 连接 的 配置 


数据 库 连 接 |sakila_dw 


[| [saa... 
目标 模式 ° 
目标 表 dim_film ° | 
提交 记录 数量 100 组 不 大 小 [9999 
Pre-load the cache? 
关键 字段 (三 表 中 查询 记录 ): 
£ m+ 流 昌 的 字段 村 
1 filmid filmid - 
代理 关键 字 
创建 代理 刍 
O 使 用 表 里 的 最 大 记录 数 + 1 
© 使 用 sequence 
Bl 使 用 自 增 字 自 
semam E 
使 用 hashcode? [F] 
Eph Hashcode 字段 
记录 最 折 更 新 日 期 的 字段 侣 先 ) 


[Ore] Em | mao Ls sq. J 


图 8-164 添加 目标 表 、 代 理 关 键 字 
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| £ m= 流 里 的 字段 
1 filmi filmid 
2 fim_title title 
3 film_description description 
4 film_release year release year 
5 film_rental_duration rental_duration 
6 film_rental_rate rental_rate 
7 film_replacement cost replacement_cost 
8 film_rating_code 
9 fim_last.update 


10 film language 

11 film_original language 

12 film_rating text 

13 film_has_behind the_scenes 
14 film_has_commentaries has_commentaries 

15 film_has_deleted_scenes has_deleted_scenes 
film_has_trailers has_trailers 

flm_is_category action 
film_is_category_animation 
film_is_category_children 
film jis_category_classics 
fm_is_category comedy 
film_is_category_documentary 
film jis_category_drama 
film jis_category family 


25 film_in_category foreign film_is_category_foreign 
26 film_in_category games film is_category games 
27 category_horror film_is_category_horror 
28 film_in_category music film_is_category_music 
29 fil category_new 

30 film_in_category_scifi film jis_category_sci-fi 


film_is_category_sports 
film_is_category_travel 


i 
' 
k 
i 


SQL 


i F 


Line 1 Column 0 
Number of rows to return 0 


Outer join? E] 
Replace variables [F] 
The parameters to use: 


É Parameter fieldname Parameter Type 


[azo |[ mo ]| sse | 


图 8-166 Database join 界面 
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在 图 8-166 中 单 击 “ 新 建 ” 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 


MySQL 数据 库 连 接 的 配置 如 图 8-167 所 示 。 


B 数据 库 连 接 


ES) 
= | 
sa Hez 
paa <a 
s mem as 
MS SQL Server T| HER 
MS SQL Server (Native) localhost ° 
MariaDB . 
a ° 
° 
© 
eeee © 
Ps Use Result Streaming Cursor 
[ = J sans | mm | 
Cm J ww | 


图 8-167 MySQL 数据 库 连接 的 配置 


在 图 8-166 的 SQL 框 中 编写 SQL 语句 ,用 于 根据 电影 id 获取 演员 的 id, 从 而 获取 演员 
的 基本 信息 ;在 The parameters to use 框 中 添加 需要 的 参数 , 即 film_id, 具 体 如 图 8-168 


所 示 。 


B: Database join 


> 


Ls J 


SQL 


select category_id 
from filn_category 
where film_id = ? 


. 


Line 3 Column 17 


Number of rows to return 0 
Outer join? E] 
Replace variables F] 

The parameters to use: 


Š Parameter fieldname Parameter Type 
1 fimid Integer 
(Ohee) [azo | EZS 


图 8-168 配置 “数据 库 连接 2 控件 


在 图 8-168 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 连接 2 控件 的 配置 。 
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18. 配置 “数据 库 查询 4” 控 件 
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双击 图 8-131 中 的 “数据 库 查询 4” 控 件 ,进入 “数据 库 查询 ”界面 ,如 图 8-169 所 示 。 


n mamana lele] x J 
步骤 名 称 数据 库 查询 4 
至 据 库 连接 -| se EE- 
n MEGS 
EE lookup table © [šess...) 
RER E 
缓存 大 小 | 
从 表 中 加 戴 所 有 数据 口 
查 淘 所 需 的 关键 字 : 
£ | 表 字 段 HA F Fm 
1 
BRANE : 
£ | 字段。 新 的 名 称 BA 类 型 
1 
查询 失败 则 忽略 加 
多 行 结果 时 失败 加 
排序 
(Onee) ( wo |[ mao || smamxes | 


图 8-169 “数据 库 查询 ”界面 


在 图 8-169 中 单 击 “ 新 建 ”按钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-170 所 示 。 


目 marte 
| 连接 名 称 
连接 邮 sakla_dw 
连接 类 型- a= 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 数据 库 名 称 : 
MonetDB salila_ dw © 
Native Mondrian la 闸口 号 : 
Neoview 3506 $ 
Netezza r 
OpenERP Server 用 户 名 : 
Oracle E| froot . 
baiia ER: 
eeee 办 
peg Use Result Streaming Cursor 
[a J sena | ws | 


图 8-170 MySQL 数据 库 连 接 的 配置 


单 击 图 8-169 中 表 名 后 的 “浏览 ”按钮 ,添加 维度 表 dim_actor, 用 于 获取 演员 的 基本 信 
息 ;在 “查询 所 需 的 关键 字 " 框 中 添加 查询 所 需 的 关键 字 字段 actor_id, 用 于 指定 表 字 段 和 流 
字段 的 比较 条 件 ; 在 “查询 表 返 回 的 值 " 框 中 添加 查询 表 返 回 的 值 ,如 图 8-171 所 示 。 


a masma [e m ¥ | 
步 要 名 称 数据 库 查 询 4 
数据 库 连 接 | sakila_dw X (sa) [F] (Wizard...) 
m= © [ase 
BE dim_actor o pa) 
e a 
arho 
MEPR ALE CO 
查询 所 和 的 关键 字 : 
Ra 比较 操作 符 + 字段 2 
1 actorid = actor jd 
查询 表 返 回 的 值 : 
£ 字段 新 的 名 称 ENN 1 
1 actorkey Integer 
查询 失败 则 忽略 F) 
多 行 结果 时 失败 E) 
排序 
| Ee Ee EE ](esmasez]( smsmsa ] 
J| 


图 8-171 配置 “数据 库 查询 4 控件 
在 图 8-171 中 单 击 “ 确 定 " 按 钮 ,完成 “数据 库 查 询 4" 控 件 的 配置 。 
19. 配置 “分 组 ”控件 
双击 图 8-131 中 的 “分 组 ”控件 ,进入 “分 组 ”界面 ,如 图 8-172 所 示 。 


[ usa ED 
SEER DA 
包括 所 有 的 行 ? F) 
HEFER [9%9javajiotmpdir%% je [ses . 
tma [op 
增加 行 号 .每 组 重新 开始 占 ] 
行 号 列 名 
sannar Fl 
DANNE 
£ g+ asas.) 
a 
me: 
£ £ Sube 类 型 ë EC 
1 


图 8-172 “分 组 ”界面 


在 图 8-172 的 “构成 分 组 的 字段 ” 框 中 添加 分 组 字段 film_key, 对 “数据 库 查询 4” 控 件 流 
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中 的 数据 按 字 段 film_key 进行 分 组 ;在 “聚合 ” 框 中 添加 聚合 字段 count_actors, 用 于 统计 出 
演 某 部 电影 的 演员 个 数 ,如 图 8-173 所 示 。 


上 分 组 l-e] = J 
SEZI PA 
ara Fl 
HSER [%%javajoampdirs69% jo [ws 
ENRE [am 
增 [ 生 每 组 重新 开始 加 
行 S 列 名 [ 
sannan E 
RENANE 
gezo [anza] 
1 film_key 
Ea: 
BE = a Ez 
1 countactors  atorid MA 
[Os] 


图 8-173 配置 “分 组 ”控件 
在 图 8-173 中 单 击 “ 确 定 ” 按 钮 ,完成 “分 组 "控件 的 配置 。 
20. 配置 “计算 器 3” 控 件 
双击 图 8-131 中 的 “计算 器 3” 控 件 ,进入 “计算 器 ”界面 ,在 "字段 ”处 添加 新 字段 one 和 
actor_weighting_factor, 其 中 字段 one 为 自 定 义 的 常量 ,指定 值 为 1, 是 一 个 临时 值 ,可 移 除 ; 
字段 actor_weighting_factor 用 于 存储 演员 的 权重 因子 (由 于 数据 库 sakila 中 没有 可 以 确定 


每 个 演员 对 电影 的 实际 贡献 值 , 因 此 可 假设 每 个 演员 的 贡献 值 相同 , 因 每 个 演员 的 权重 因子 
也 都 相同 ) ,具体 如 图 8-174 所 示 o 


日 计算 器 [ET 加 | s= 


步骤 名 称 


CE 


Throw an error on non existing files 


F 
£ mz Hs FRA FRB 


1 one 


Set field to constant value A 1 
2 _actor_weighting factor _ A/B 
‘ 


[Ous] 


图 8-174 配置 “计算 器 3” 控 件 
在 图 8-174 中 单 击 “ 确 定 ” 按 钮 ,完成 “计算 器 3 控件 的 配置 。 


21. 配置 “ 流 查询 ”控件 


双击 图 8-131 中 的 “ 流 查 询 ” 控 件 ,进入 “ 流 里 的 值 查询 ”界面 ,在 Lookup step 后 的 下 拉 
列表 中 选择 要 查询 的 流 , 即 “计算 器 3” 控 件 流 ; 在 “查询 值 所 需 的 关键 字 " 处 添加 用 于 查询 流 
里 值 的 字段 , 即 film_key, 通 过 使 用 “数据 库 查询 4” 控 件 中 的 字段 film_key 去 “计算 器 3” 控 
件 流 中 匹配 相应 的 数据 ;在 “指定 用 来 接收 的 字段 " 框 中 添加 用 来 接收 值 的 字段 actor_ 
weighting_factor, 如 图 8-175 所 示 。 


lele] = J 


T 流 里 的 值 查 询 


Lookup step | 计算 器 3 X 


£ *@ mare 
1 filmkey — film_key 


£ Field 新 的 名 称 BA >m 
1 actor weighting factor Number 
保留 内 存 (消耗 CPU) 
Key and value are exactly one integer field © 
Use sorted list (.s.o. hashtable) © 


图 8-175 配置 “ 流 查询 ”控件 


在 图 8-175 中 单 击 “确定 ”按钮 ,完成 “ 流 查 询 ” 控 件 的 配置 。 
22. 配置 “插入 /更 新 ”控件 
双击 图 8-131 中 的 “插入 /更 新 "控件 ,进入 “插入 /更 新 "界面 ,如 图 8-176 所 示 。 


3 插入 /更 新 = = 
步 要 名 称 插入 /更 新 
utana ~ [s=] [maa] (Wizards) 
目标 模式 © inae) 
目标 表 lookup table o 区 本 
提交 记录 数量 100 ° 
不 执行 任何 更 新 : E 
用 未 查询 的 关键 字 ; 
£ s= Hans 2 Ey [aae] 
EN 
更 新 字段 : 
fa ae = ET 
[amas] 
° =s... 


8-176 “插入 /更 新 "界面 
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在 图 8-176 中 单 击 “ 新 建 ” 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-177 所 示 。 


B masis E) 
高 级 
选项 
连接 池 
集群 设置 
主机 名 称 
localhost ° 
数据 库 名 称 : 
saldla dw ° 
s05 
3306 ° 
BPE: 
root ° 
= 
eee í í 
国 Use Result Streaming Cursor 
Em J w J 


图 8-177 MySQL 数据 库 连接 的 配置 


单 击 图 8-176 中 目标 表 右 侧 的 “浏览 ?按钮 ,弹出 “数据库 浏览 器 ”窗口 ,选择 目标 表 , 即 
维度 表 dim_film_actor_bridge; 单 击 “ 获 取 字 段 ” 按 钮 ,用 来 指定 查询 数据 需要 的 关键 字 ; 单 
击 * 获 取 和 更 新 字段 "按钮 ,用 来 指定 需要 更 新 的 字段 “插入 /更 新 ”控件 用 于 通过 比较 流 与 
表 中 字段 的 数据 ,更 新 维度 表 dim_film_actor_bridge 中 的 数据 ,如 图 8-178 所 示 o 


D 插入 /更 新 1 = 
DEER 插入 /更 新 
wawan na Cala 
es © pusm) 
目标 表 dim film_actor bridge esa 
提交 记录 数量 100 ° 
TETEN: E 
用 来 查询 的 关键 字 : 
BE Haner RENFRI RENFE [amza] 
1 film_key = film_key 
2 adorkey = actor 
更 新 字段 : 
[laze =a = IE 
1 film_key film_key N 
Har fank ' | =s 
3 actorweighting factor actor-weighting facor N J 
[Oses] En 


图 8-178 配置 “插入 /更 新 "控件 


在 图 8-178 中 单 击 “ 确 定 ” 按 钮 ,完成 “插入 /更 新 "控件 的 配置 。 
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23. 运行 转换 load_dim _film 
单 击 转换 工作 区 顶部 的 贺 按 钮 ,运行 创建 的 转换 load_dim_film, 实 现 加 载 电影 数据 至 
电影 维度 表 dim_film, 具 体 如 图 8-179 所 示 。 


[EX load_dim film EZ 
>-NO-00P XEIRA 100% ~ 


村 o>- 村 ~ ~ 
WAA 


sm2 SEREA  FdRmSS 2 msn PR90286 MRE 
CP < af = < B< af EP 
Basher 计算 器 2 P2 增加 第 量 2 BRETA: — mimic 计算 路 


‘ 


图 8-179 运行 转换 load_dim _film 


从 图 8-179 中 的 执行 结果 看 ,每 个 控件 的 右上 角 均 有 “VV”, 说 明 转换 load_dim_film 执 
行 成 功 。 
24. 查看 维度 表 dim _film 和 dim_film_actor_bridge 中 的 数据 


通过 SQLyog 工具 ,查看 维度 表 dim_film 和 dim_film_actor_bridge 是 否 已 成 功 插入 数 
据 ,查看 结果 如 图 8-180 和 图 8-181 所 示 ( 这 里 只 展示 部 分 数据 ) 。 


[ml 1001|2006-02-15 05:03:42 [ACADEMY DINOSAUR À Epic ... [ 96B | 2006 English Not Applicable 


6 
[s] 1002 2006-02-15 05:03:42 ACE GOLDFINGER |A Astou... | 100B 2006 English Not Applicable 3 4.99 
[m] 1003|2006-02-15 0: 2 ADAPTATION HOLES A Astou... —96B 2006 English Not Applicable 了 2.99 
| (A Fanci... | 92B | 2006 English [Not Applicable 5 2.99 
IA Fast-... | 117B 2006 English Not Applicable 6| 2.99 
IA Intre... 89B 2006|English Not Applicable 3 2.99 
A Touch... 81B 2006 English Not Applicable 6 4.99 
H A Epic ... 17B 2006 English Not Applicable 6 4.99 
1009 2006-02-15 0: A Thoug... | 115B 2006 English Not Applicable 3 2.99 
6 


[m] 1010 2006-02-15 05:03:42 [ALADDIN CALENDAR A Actio... [ 89B | 2006 English [Not Applicable 
` mn + 


A 8-180 维度 表 dim film 


从 图 8-181 中 可 以 看 出 ,维度 表 dim_film 和 dim_film_actor_bridge 中 均 插入 了 数据 ， 
说 明 我 们 成 功 实现 了 加 载 电 影 数据 至 电影 维度 表 dim_film 中 。 


8.3.9 加 载 租赁 数据 至 租赁 事实 表 
下 面 通过 Kettle 工具 加 载 租赁 数据 至 租赁 事实 表 fact_rental, 具 体 实现 步骤 如 下 。 
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[B 
加 
[ml 
加 
[mil 
[ml 
IO 
加 | 


图 8-181 维度 表 dim_film_actor_bridge 


1. 打开 Kettle 工具 ,创建 转换 


使 用 Kettle 工具 创建 转换 load_fact_rental, 并 添加 * 表 输入 "控件 “字段 选择 控件 、 
“过 滤 记 录 "” 控 件 “ 计 算 器 "控件 “增加 常量 "控件 “数据 库 查询 ”控件 “维度 查询 /更 新 " 控 
件 “ 插 入 /更 新 ”控件 以 及 Hop 跳 连接 线 , 具 体 效果 如 图 8-182 所 示 。 
(FX load fact rental £3 
b +H Dr. e XJA Æ lo ~ 


[e> [E —— E — E, 


Ha 
BHi jH He jH 


插入 /更 新 增加 第 量 2 。 维度 查询 /更 新 3 。 维度 查询 /更 新 2 维度 查询 /更 新 数据 库 查 询 2 


‘ 


图 8-182 ”创建 转换 load_fact_rental 


2. 配置 “ 表 输 入 ”控件 
双击 图 8-182 中 的 “ 表 输 入 ”控件 ,进入 “ 表 输 入 ”界面 ,如 图 8-183 所 示 。 


EL MAA = Fi 
SEZ SAA 
PEE ~ (a) [i (wizards) 
ia [maman] 
SELECT <values> FROM <table name> WHERE <conditions> i’ 
i ; 
行 1 列 0 
允许 简易 转 找 加 
3⁄2 SQL 语句 里 的 变量 回 
从 步 枯 搬入 数据 z 
执行 每 一 行 ? [l 
记录 数量 限制 0 ° 
[Os] Gazo] Ewe [ao J 


图 8-183 “ 表 输 入 ”界面 


在 图 8-183 中 单 击 “新 建 " 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 “确认 ”按钮 。 
MySQL 数据 库 连接 的 配置 如 图 8-184 所 示 。 


目 merse E) 
高 级 连接 名 称 : 
= sakila dw 
s 连接 类 型 . as 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) REFER: 
MonetDB sakila dw ° 
Native Mondrian 3 sos 
Neoview 3306 ° 
Netezza : 
OpenERP Server m 
7 了 | root ° 
连接 方式 : = 
*..... ° 
sg Use Result Streaming Cursor 


图 8-184 MySQL 数据 库 连接 的 配置 


在 图 8-183 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 字段 rental_last_update 中 的 最 大 值 ， 
将 该 值 替 换 为 1970-01-01 00:00:00 并 赋值 给 临时 字段 max_fact_rental_last_update; 单 击 
“预览 ”按钮 ,查看 临时 字段 max_fact_rental_last_update 是 否 将 默认 值 设置 为 1970-01-01 
00:00:00, 具 体 如 图 8-185 和 图 8-186 所 示 。 


RESIN [= 加 
SERER FAA 
ERER [okon H | | 
SQL 
ELECT a 
[COALESCE (MAX(rental_last_update), "1970-01-01 00:00:00") 国 
S max_fact_rental_last_update 
FROM fact_rental bd 
g ü 
行 5 po 
允许 简易 转 措 回 
BR sQt 语句 里 的 变量 A 
从 步 村 插入 数据 
执行 每- 行 ? 口 
记录 数量 限制 0 ° 


图 8-185 编写 SQL 语句 


从 图 8-186 中 可 以 看 出 ,临时 字段 max_fact_rental_last_update 的 默认 值 设置 为 1970- 
01-01 00:00:00, 单 击 “关闭 >“ 确定” 按钮, 完成“ 表 输入 ”控件 的 配置 。 
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图 mama 


己 | 回 | x= 


HR ANA 的 数据 (1 rows) 


£ | max fact rental last update 
1 1970-01-01 00:00:00 


CE 


图 8-186 预览 数据 
3. 配置 “ 表 输入 2” 控 件 


双击 图 8-182 中 的 “ 表 输入 2” 控件, 进入 “ 表 输 入 "界面 ,如 图 8-187 所 示 。 


民 SAA > 
DEER maA 
` [es BR) wear... 
= 了 到 SQL 查询 再 名 ,| 
SELECT <¢values> FROM <table name> WHERE <conditions> 
u 
行 1 列 0 


"j 
允许 简易 转换 加 


图 8-187 “ 表 输入 "界面 


在 图 8-187 中 单 击 “ 新 建 ”" 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连接 的 配置 如 图 8-188 所 示 。 
在 图 8-187 的 SQL 框 中 编写 SQL 语句 ,用 于 获取 数据 库 sakila 中 数据 表 rental 中 的 最 
新 数据 ,具体 如 图 8-189 所 示 。 
在 图 8-189 中 单 击 “ 确 定 ” 按 钮 ,完成 “ 表 输入 2” 控 件 的 配置 。 
4. 配置 “字段 选择 ”控件 


双击 图 8-182 中 的 “字段 选择 ”控件 ,进入 “选择 /改名 值 ” 界 面 ,在 “选择 和 修改 ”选项 卡 
中 添加 要 修改 的 字段 ,如 图 8-190 所 示 ;在 “元 数据 ”选项 卡 中 的 “需要 改变 元 数据 的 字段 ”处 
添加 字段 。 这 里 使 用 “字段 选择 ”控件 构建 数据 仓库 中 维度 表 需 要 的 字段 数据 ,其 配置 如 
图 8-191 所 示 。 


在 图 8-191 中 单 击 “ 确 定 ” 按 钮 .完成 “字段 选择 ”控件 的 配置 。 
5. 配置 “过 滤 记 录 ” 控 件 


双击 图 8-182 中 的 “过 滤 记 录 ” 控 件 , 进 入 “过 滤 记 录 ” 界 面 ,如 图 8-192 所 示 。 
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B sest 
高 级 
选项 
连接 池 
集群 
° 
° 
° 
° 
I °. 
JNDI Use Result Streaming Cursor 
[ m J sens] ma J 
Em 


图 8-188 MySQL 数据 库 连接 的 配置 


, return_date 
, staff_id 
last_update 

FROM rental where last_update > ? 
‘ 


行 8 列 13 


[ wao | 


图 8-189 编写 SQL 语句 


在 图 8-192 中 的 “条 件 ” 处 设置 过 滤 的 条 件 , 对 归还 时 间 进 行 过 滤 操 作 ; 单 击 一 field 
框 ,弹出 “字段 ”对 话 框 ,选择 要 过 滤 的 字段 return_datetime( 归 还 时 间 ) ,如 图 8-193 所 示 。 

在 图 8-193 中 单 击 “ 确 定 ” 按 钮 ,完成 过 滤 字 段 return_datetime 的 选择 。 

单 击 图 8-192 中 的 “二” 框 , 弹 出 “函数 :” 对 话 框 ,选择 过 滤 条 件 ( 这 里 选择 的 是 IS NOT 
NULL( 不 为 空 )) ,如 图 8-194 所 示 。 


在 图 8-194 中 单 击 “ 确 定 ” 按 钮 .完成 过 滤 条 件 的 选择 ,判断 归还 时 间 不 为 空 。 字 段 
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Ez 选择 /改名 值 [= 
DEER gm 
TEFE096S 5 fF | 元 数据 | 
字段 : 
|£ | Të 改名 成 长 度 Wm EE 
1 rentalid 
2 rental_date 
3 inventoryjid 
4 customer id < 
包含 未 指定 的 列 按 名 称 排序 回 
图 8-190 添加 要 修改 的 字段 
Et 选择 /改名 值 [= s= 
DEER Fm 
reen [E r s. 
需要 改变 元 数据 的 字段 : 
£ | 字段 名 称 改名 成 类 型 。 长 度 精度 Binary to Normal? 格式 Date... 
1 rentaldate — rental date key String = yyyyMMdd ë 
2 rental_time rental time key String = HHmmss = EEEN emere 
3 return_date return_date key String = yyyyMMdd Š 
4 return time — return. time key String = HHmmss É 
4 上 


目 过 涉 记录 


= = 
PEER hom 
发 送 true 数 据 给 步 村 : ` 
发 送 false 数 据 给 步 要 : - 
条 件 : 
C +A 
kfield>] F Kfield> 
value> - 
(Oses) Caso see) 


图 8-192 “过 滤 记 录 ” 界 面 


return_datetime 的 过 滤 设 置 如 图 8-195 所 示 。 

在 图 8-195 中 “发 送 true 数据 给 步 又: "后 的 下 拉 列 表 中 选择 “计算 器 ”, 将 字段 return_ 
datetime 不 为 空 的 数据 传递 到 计算 器 控件 流 中 ;在 “发 送 false 数据 给 步骤 : ”后 的 下 拉 列 表 
中 选择 “增加 常量 ”, 将 为 空 的 数据 传递 到 “增加 常量 ”控件 流 中 ,具体 如 图 8-196 所 示 。 

在 图 8-196 中 单 击 “ 确 定 ” 按 钮 ,完成 “过 滤 记 录 ” 控 件 的 配置 。 
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return_time_key (String) 


图 8-193 “字段 ”对话 框 图 8-194 “函数 :" 对 话 框 
B mise [= x J 
PEER 过 涉 沁 录 
Atruna z 
发 详 false 数 据 给 上 了: = 
条 件 : 

+E 

Eeturn_datetime] [IS NOT NULL] f- ii T 

E |] Ë 


图 8-195 ”字段 return_datetime 的 过 滤 设置 


B 过 涉 记录 = | = 
DES maok 
trueia: 计算 器 dab 
发 详 false 数 据 给 步骤 : | 增加 常量 - 
条 件 : 
| + 
Eeturn_datetine] [IS NOT NULL] F ] 
[Ors] 


8-196 配置 “过 滤 记 录 ” 控 件 


6. 配置 “计算 器 ”控件 
双击 图 8-182 中 的 “计算 器 ”控件 ,进入 “计算 器 ”界面 ,在 “字段 ”处 添加 新 字段 milisecs、 


rental_duration _ milisecs、 rental _ duration, count _ returns, return_ date _ keyl, 其 中 字段 


milisecs 为 自 定义 常量 , 值 为 1000; 字 段 rental_duration_milisecs 用 于 存储 租赁 的 毫秒 数 ; 
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字段 rental_duration 用 于 存储 租赁 的 周期 ;字段 count_returns 为 自 定义 字段 ,用 于 统计 归 
还 的 次 数 :字段 return_date_keyl 用 于 存储 归还 的 日 期 。 这 里 使 用 “计算 器 ”控件 计算 租赁 
的 周期 ,其 配置 如 图 8-197 所 示 。 


日 计算 器 [= J 

步骤 名 称 = 
wna 
Throw an error on non existing files 
字段 : 

£ | 新 字段 计算 FRA 字段 B Fac (sm 

1 milisecs Set field to constant value A 1000 Integer 

2 rental duration milisecs A- B return_datetime rental datetime Integer 

3 rental duration A/B rental_duration_milisecs milisecs Integer 

4 count_returns Set field to constant value A 1 Integer 

5 return_date_key1 Create a copy of field À return_date_key Integer 
[Os] [mao | | msc) 


图 8-197 配置 “计算 器 "控件 


7. 配置 “增加 常量 "控件 

双击 图 8-182 中 的 “增加 常量 ”控件 .进入 “增加 常量 "界面 ,在 “字段 " 框 中 添加 常量 字段 
rental_duration .count_returns return_date_keyl ,用 来 记录 归还 的 日 期 (由 于 在 “过 滤 记 录 ” 
控件 中 将 归还 日 期 为 空 的 字段 输出 到 * 增 加 常量 控件 流 中 ,因此 需要 在 “增加 常量 ”控件 中 
添加 用 于 记录 归还 日 期 的 字段 ) ,具体 如 图 8-198 所 示 。 


Ú: mz [= = J 
DEZE 增加 常量 

字段 

£ aR 类 型 WC +m 精确 当前 的 ”10 进 制 的 组 E BAER 和 

1 rental duration Integer = 

2 count_returns Integer 0 = 

3 return_date_key1 Integer 0 = ` 

T 


图 8-198 配置 “增加 常量 "控件 
在 图 8-198 中 单 击 “ 确 定 ”按钮 ,完成 “增加 常量 ”控件 的 配置 。 
8. 配置 “数据 库 查询 ”控件 
双击 图 8-182 中 的 “数据 库 查询 ”控件 ,进入 “数据 库 查询 ”界面 ,如 图 8-199 所 示 。 


在 图 8-199 中 单 击 “ 新 建 ” 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 


MySQL 数据 库 连 接 的 配置 如 图 8-200 所 示 。 
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A 数据 库 查 询 [= r | 
SESB MESEI 
anne [Ga (Wizards) 
楼 式 名 称 ° 
EE lookup table © əsas.) 
使 用 生存 加 
EFA) fo 
从 表 中 加 戴 所 有 数据 口 
坦 询 所 需 的 关键 字 : 
É 表 字段 HRA m 。 m 
1 
SANA: 
£ 字段 新 的 名 称 mA 关 型 
1 
喜光 失败 则 忽略 四 
多 行 结果 时 失败 加 
排序 
(Ore) [ wo J| mo | amaror || amansa | 
图 8-199 “数据 库 查询 ”界面 
EP E) 
高 级 连接 名 称 : 
a = 
am 连接 类 型: e= 
MS SQL Server z] ENER 
MS SQL Server (Native) localhost ° 
MaxDB SAP DB) — 
Mor sakila ° 
Native Mondrian nos: 
Neoview 3306 ° 
[sss = posen Rss: 
Oracle 了 | root ° 
连接 方式 : == 
ceseco e 
eq 国 Use Result Streaming Cursor 
[ m J sens] ma J 
[m J ms | 
图 8-200 MySQL 数据库 连接 的 配置 
单 击 图 8-199 中 表 名 右 侧 的 “浏览 ?按钮 ,添加 数据 表 inventory, 用 于 查询 电影 库存 的 


信息 ;在 “查询 所 需 的 关键 字 ? 框 中 添加 查询 所 需 的 关键 字 字 段 inventory_id, 用 于 指定 表 字 
段 和 流 字段 的 比较 条 件 ;在 “查询 表 返 回 的 值 ? 框 中 添加 查询 表 返 回 的 值 , 即 字段 film_id 和 
store_id 的 数据 ,如 图 8-201 所 示 。 

在 图 8-201 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 查询 ”控件 的 配置 。 
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a BESSI = = 
DEER 数据 库 查 询 
passa [ee [s= [ass-] wees) 
=== * sss] 
EZ inventory ° EE 
amze O 
EFA jo 
Aapa as 口 
查询 所 雪 的 关键 字 : 
£ aa HAE *@ Fm2 
1 inventory_id = inventory id 
查询 表 返 回 的 值 : 
£ 字段 新 的 名 称 EN E 
1 filmid Integer 
2 storejid Integer 
查询 失败 则 忽略 F) 
多 行 结果 时 失败 F) 
排序 


图 8-201 配置 “数据 库 查询 ”控件 


9. 配置 “数据 库 查询 2” 控 件 
双击 图 8-182 中 的 “数据 库 查询 2” 控 件 , 进 入 “数据 库 查询 ”界面 ,如 图 8-202 所 示 。 
a 数据 库 查询 leel z J 


Kasi ` [e=] i) (wizards) 
=== QE 
表 名 lookup table © [iua] 
使 用 缓存 回 
Rho 
从 表 中 加 载 所 有 数据 口 ] 


[Orie] [ao J mo J] armes ] | mwa ] 


图 8-202 “数据 库 查询 ”界面 


在 图 8-202 中 单 击 “ 新 建 " 按 钮 ,配置 数据 库 连 接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-203 所 示 。 
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B serte 
e l j 
P=: ERER 
paa sakila dw 
= 连接 尖 型 : li 
MS SQL Server z] ENE 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) mspas: 
MonetDB sakila_dw ° 
Native Mondrian 3 mna: 
Neoview 3306 ° 
Netezza " 
OpenERP Server ma 
Oracle 了 |j root ° 
连接 方式 : 密码 : 
ee ° 
es Use Result Streaming Cursor 


图 8-203 MySQL 数据 库 连接 的 配置 


单 击 图 8-202 中 表 名 右 侧 的 “浏览 ”按钮 .添加 维度 表 dim_film, 用 于 获取 数据 仓库 中 维 
度 表 dim_film 中 的 数据 ;在 “查询 所 需 的 关键 字 ” 框 中 添加 查询 所 需 的 关键 字 字段 film_id， 
用 于 指定 表 字 段 和 流 字段 的 比较 条 件 ; 在 查询 表 返 回 的 值 " 框 中 添加 查询 表 返 回 的 值 , 即 字 
Et film_key, 如 图 8-204 所 示 。 


A 数据 库 查询 = m 
DEER 数据 库 查 询 2 
P — ` [es-] sa] wees) 
i ga 
EE dim_ film -p 
amze E| 
Erho 
Mahia ig [7] 
usss 
£ ae — EnH Fm2 
1 filmid = filmid 
DISANA: 
£ *@ 新 的 名 称 MU 类型 
1 flm_key Integer 
查 淘 失 败 则 忽略 加 
多 行 结果 时 失败 器 
排序 
Š [mo || mmsxer | awanse | 


图 8-204 配置 数据库 查 询 2” 控 件 
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在 图 8-204 中 单 击 “ 确 定 ” 按 钮 ,完成 “数据 库 查询 2” 控 件 的 配置 。 
10. 配置 “维度 查询 /更 新 ”控件 
双击 图 8-182 中 的 “维度 查询 /更 新 "控件 ,进入 “维度 查询 /更 新 "界面 ,具体 如 图 8-205 所 示 。 


目标 表 [dim table name sa 


提交 数量 100 

mer [Z| 

ma O 
ETRO = 缓存 所 有 ) 5000 


Ee] 
关键 字 字 段 (to look up row in dimension): 
f mem 。。” 流 里 的 字段 

1 


代理 关键 字段 | | 新 的 名 称 
创建 代理 刍 
© 使 用 表 最 记录 数 +1 
© 使 用 sequence 
© 使 用 自 增 字 段 


Version 字 段 |version - 

Stream 日 期 字段 ~ 

开始 日 期 字段 date_ from = 最 小 的 年 份 |1900 

使 用 另外 一 个 可 用 的 开始 日 期 回 | <Select Option> - ~ 
截止 日 期 字段 | date to ~ 最 大 年 份 2199 


[Laso |[ mso |[ amre ]_ sa = 


[Oo 


图 8-205 “维度 查询 /更 新 "界面 


在 图 8-205 中 单 击 “ 新 建 "按钮 ,配置 数据 库 连 接 , 完 成 后 单 击 “ 确 认 ” 按 钮 。MySQL 数 
据 库 连接 的 配置 如 图 8-206 所 示 。 

在 图 8-205 中 单 击 目标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 维度 表 dim_ 
customer; 在 “关键 字 ” 选 项 卡 处 添加 关键 字 字 有 段 ;在 “代理 关键 字段 ”后 的 下 拉 列 表 中 选择 
customer_key, 并 指定 “创建 代理 键 ” 为 使 用 自 增 字段 ;在 “Version 字段 ”后 的 下 拉 列 表 中 选 
择 customer_version_number; 在 “Stream 日 期 字段 "后 的 下 拉 列 表 中 选择 rental_datetime; 
在 “开始 日 期 字段 ”后 的 下 拉 列 表 中 选择 customer_valid_from; 在 “截止 日 期 字段 "后 的 下 拉 
列表 中 选择 customer_valid_through, 具 体 如 图 8-207 所 示 。 

在 图 8-207 中 单 击 “ 确 定 ” 按 钮 .完成 “维度 查询 /更 新 "控件 的 配置 。 


78 数据 清洗 


连接 名 称 : 
sakila dw 
MS SQL Server Z] 主机 名 称 : 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 数据 库 名 称 : 
MonetDB sakila dw © 
Native Mondrian | #05: 
Neoview 3306 © 
Netezza 
OpenERP Server 
Oracle - 网 
连接 方式 : 

° 
pe Use Result Streaming Cursor 


图 8-206 MySQL 数据 库 连接 的 配置 


[维度 查询 /更 新 
步 村 名称 维度 查询 /更 新 
更 新 维度 吗 ? 加 
数据库 连接 [sakla dw "| Wa) PE) 
目标 模式 一 一 
目标 表 ”dim_customer MEN] 
a [100 
使 用 生存 团 
mee FJ 
26GE(0 = EFH) 5000 
mF. | 
HEFP (to look up row in dimension): 
aren 流 里 的 字段 
1 customer_id customer_id 


代理 关键 字段 [customerkey 


创建 代理 刍 
© 使 用 表 最 记录 数 +1 


© 使 用 sequence | 


© 使 用 自 增 字段 


Version 字 经 [customer version number 


Stream 日 期 字段 |rental_datetime 


开始 日 期 字段 |customer valid from > 


最 小 的 年 份 


使 用 另外 一 个 可 用 的 开始 日 期 加 [<select Options af 


EIB ER [customer valid through = 


最 大 年 份 


区 | EE 


2199 


图 8-207 配置 “维度 查询 /更 新 ” 


控件 
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11. 配置 “维度 查询 /更 新 2 控件 


双击 图 8-182 中 的 “维度 查询 /更 新 2” 控 件 , 进 入 “维度 查询 /更 新 "界面 ,具体 如 图 8-208 
所 示 。 


| 维度 查询 / 更 新 


HESR 维度 埋 询 /更 新 2 
更 新 维度 吗 ? [g] 


数据 库 连 接 - EI 
= mj 
目标 表 dim table name MESI 


提交 数量 100 


使 用 缓存 [gl 
预 加 0 戴 红 三 
缓存 行 数 (0 = 组 存 所 有 ) 5000 


TREZ] 

关键 字 字 段 (to look up row in dimension): 
|F | 维 字段 。 “| 流 时 的 字段 

£ 


代理 关键 字段 ROER 
创建 代理 键 
图 使 用 表 最 记录 数 +1 
© 使 用 sequence 
© 使 用 自 增 字段 


Version 字 段 |version 

Stream 日 期 字段 - 
开始 日 期 字段 date_ from ~ 最 小 的 年 份 1900 

使 用 另外 一 个 可 用 的 开始 日 期 加 | <Select Option> hd = 
截止 日 期 字段 | date to - 最 大 年 份 2199 


Lao ][ wwo ]| aare J| sa | 


图 8-208 “维度 查询 /更 新 "界面 


在 图 8-208 中 单 击 “新 建 ” 按 钮 ,配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-209 所 示 。 

在 图 8-208 中 单 击 目标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 维度 表 dim_staff; 
在 “关键 字 ” 选 项 卡 中 添加 关键 字 字 段 staff_id; 在 “代理 关键 字段 ”后 的 下 拉 列 表 中 选择 
staff_key, 并 指定 “创建 代理 键 ? 是 使 用 自 增 字 段 ; 在 “ Version 字段 ”后 的 下 拉 列 表 中 选择 
staff_version_number; 在 “Stream 日 期 字段 ”后 的 下 拉 列 表 中 选择 rental_datetime; 在 “开始 
日 期 字段 "后 的 下 拉 列 表 中 选择 staff_valid_from; 在 “截止 日 期 字段 "后 的 下 拉 列 表 中 选择 
staff_valid_through, 具 体 如 图 8-210 所 示 。 
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[ w J sns | ws | 


图 8-209 MySQL 数据 库 连接 的 配置 


[维度 查询 /更 新 


ETE] 


关键 字 字 段 (to look up row in dimension): 


£ em 流 里 的 字段 
1 staffid staff id 


使 用 另外 一 个 可 用 的 开始 日期 回 
REAMER [staff valid through 


代理 关键 字段 [staff key 


创建 代理 刍 
© 使 用 表 最 记录 数 +1 


© 使 用 sequence | 


© 使 用 自 增 字段 


Version 字 和 假 [staff version-number 


Stream 日 期 字段 [rental_datetime 


开始 日 期 字 各 |staff_valid_from 


最 小 的 年 份 


<Select Option> 


最 大 年 份 |2199 


[ao [wos hama) so 


图 8-210 配置 “维度 查询 /更 新 2” 控件 
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在 图 8-210 中 单 击 “ 确 定 ” 按 钮 ,完成 “维度 查询 /更 新 2 控件 的 配置 。 
12. 配置 “维度 查询 /更 新 3” 控 件 


双击 图 8-182 中 的 “维度 查询 /更 新 3” 控 件 ,进入 “维度 查询 /更 新 "界面 ,具体 如 图 8-211 
所 示 。 


,维度 查询 /更 新 lele] x J 


DEZI BETREF 3 ]Ñ 


目标 模式 


° 


目标 表 dim table name © WS. 
提交 数量 100 I < | 
使 用 缓存 团 
ase O 
缓存 行 数 (0 = FKA) 5000 


ETE] 


== (to look up row in dimension): 
£ OR RENFE 
$ 


了 | 新 的 名 称 


图 8-211 “维度 查询 /更 新 ”界面 


在 图 8-211 中 单 击 * 新 建 ? 按 钮 ,配置 数据 库 连 接 , 配 置 完 成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连接 的 配置 如 图 8-212 所 示 。 

在 图 8-211 中 单 击 目标 表 右 侧 的 “浏览 ”按钮 ,选择 输出 的 目标 表 , 即 维度 表 dim_store; 
在 “关键 字 ” 选 项 卡 中 添加 关键 字 字 段 store_id; 在 “代理 关键 字段 "后 的 下 拉 列 表 中 选择 
store_key, 并 指定 “创建 代理 键 ? 是 使 用 自 增 字段 ;在 “Version 字段 ”后 的 下 拉 列 表 中 选择 
store_version_number; 在 “Stream 日 期 字段 "后 的 下 拉 列 表 中 选择 rental _datetime; 在 “ 开 
始 日 期 字段 ”后 的 下 拉 列 表 中 选择 store_valid_from; 在 “截止 日 期 字段 "后 的 下 拉 列 表 中 选 
择 store_valid_through, 具 体 如 图 8-213 所 示 。 

在 图 8-213 中 单 击 “ 确 定 ” 按 钮 ,完成 “维度 查询 /更 新 3” 控 件 的 配置 。 


高 级 连接 名 称 : 


连接 池 sakila dw 
连接 类型; an 

MS SQL Server a HER 
MS SQL Server (Native) 
MariaDB 

MaxDB (SAP DB) 
MonetDB 


Native Mondrian i w 


Neoview 3306 
Netezza 

OpenERP Server 
Oracle 了 | root 


[ m J sena | mm) 


ODBC : 
JNDI Use Result Streaming Cursor 


图 8-212 MySQL 数据 库 连接 的 配置 


k. 维度 查询 / 更 新 


目标 表 dim_store 


IERE |100 


使 用 缓存 园 
Sines A 


缓存 行 数 (0 = EFKA) 5000 


Fo. | 


关键 字 字 段 (to look up row in dimension): 


f mem — 流 轩 的 字段 
1 storeid store_id 


代理 关键 字段 |store_key 了 | 新 的 名 称 
创建 代理 名 
O 使 用 雪 最 记录 数 +1 


© 使 用 sequence | 


Version Ff |store_version_ number 


Stream 日 期 字段 |rental_datetime 


开始 日 期 字段 |store_valid_from - 


使 用 另外 一 个 可 用 的 开始 日 期 回 |<Select Option> -] 


晤 小 的 年 份 |1900 


截止 日 期 字段 |store_valid.through 7 


[anao] ms amea) so | 


最 大 年 份 |2199 


图 8-213 配置 “维度 查询 /更 新 3” 控 件 
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13. 配置 “增加 常量 2 控件 
双击 图 8-182 中 的 “增加 常量 2” 控 件 , 进 入 “增加 常量 ”界面 ,在 “字段 ” 框 中 添加 常量 字 
Et count_rentals, 用 于 统计 租赁 的 次 数 , 具 体 如 图 8-214 所 示 。 


:增加 常量 
SEER ”增加 第 量 2 

+a 

£ 名 称 m f KE 精确 ”当前 的 10 进 制 的 组 E Re 

1 count_rentals Integer 1 & 

PE PR * 


图 8-214 配置 “增加 常量 2” 控件 
在 图 8-214 中 单 击 “ 确 定 ” 按 钮 ,完成 “增加 常量 2” 控 件 的 配置 。 


14. 配置 “插入 /更 新 "控件 
双击 图 8-182 中 的 “插入 /更 新 "控件 ,进入 “插入 /更 新 "界面 ,如 图 8-215 所 示 。 


D 插入 /更 新 LET 加 | = 
步 要 名 称 插入 /更 新 
basme (p) (i) (wizard) 
EHE * (hasen) 
目标 表 lookup table * p 
提交 记录 数量 100 ° 
TAEAE: E 
FREIN: 
£ ae Hare 流 里 的 字段 1 流 里 的 字段 2 Es 
更 新 字段: 
| wre =x ET 
[sss 
(Onee) [æo )[ mso ]_ s J 


图 8-215 “插入 /更 新 "界面 


在 图 8-215 中 单 击 “ 新 建 " 按 钮 , 配置 数据 库 连接 ,配置 完成 后 单 击 “ 确 认 ” 按 钮 。 
MySQL 数据 库 连 接 的 配置 如 图 8-216 所 示 。 

单 击 图 8-215 中 目标 表 右 侧 的 “浏览 ”按钮 ,弹出 “数据 库 浏览 器 ”窗口 ,选择 目标 表 , 即 
事实 表 fact_rental; 单 击 “ 获 取 字 段 ” 按 钮 ,用 来 指定 查询 数据 需要 的 关键 字 字 段 rental_id， 
用 于 指定 表 字 段 和 流 字段 的 比较 条 件 ; 单 击 “ 获 取 和 更 新 字段 ”按钮 ,用 来 指定 需要 更 新 的 字 


段 ,具体 如 图 8-217 所 示 。 
在 图 8-217 中 单 击 “ 确 定 ” 按 钮 .完成 “插入 /更 新 ”控件 的 配置 。 


连接 名 称 : 
sakila_ dw 
连接 类 型 : 设置 
MS SQL Server z] 主机 名 称 : 
MS SQL Server (Native) localhost ° 
MariaDB 
MaxDB (SAP DB) 数据 库 名 称 : 
MonetDB sakila_ dw ° 
Native Mondrian Waman. gr: 
Neoview 3306 $ 
Netezza z 
OpenERP Server 用 户 名 : 
Oracle ioa . 
= as = 

*..... è 
F: Use Result Streaming Cursor 


图 8-216 MySQL 数据 库 连接 的 配置 


D 插入 更 新 llel 
DEER 插入 /更 新 
目标 模式 ° 
BIRR fact rental © (iu) 
提交 记录 数量 100 ° 
不 执行 任何 更 新 : 回 
用 来 查询 的 关键 字 : 
£ aa AREF 流 里 的 字段 1 流 里 的 字段 2 EE 
1 rental_id rental id 
更 新 字段 : 
BE zra =s [amena | 
1 rental_date_key rental_date_key Y 
2 rental time key rental time_key Y (amw) 
3 rental jd rental id Y 
4 rental_duration rental duration y 
5 count returns count_returns Y 
6 return_date_key return_date_key1 Y 
7 fim_key film_key 7 
8 customer key customer_key Y 
9 staff key staff key Y 
10 count rentals count_rentals F 
11 rental last update last update Y 
12 store_key store_key Y 


-217 配置 “插入 /更 新 "控件 
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15. 运行 转换 load fact rental 
单 击 转 换 工作 区 顶部 的 号 按钮 ,运行 创建 的 转换 load_fact_rental, 实 现 加 载 租赁 数据 
至 租赁 事实 表 fact_rental 中 ,具体 如 图 8-218 所 示 。 


($X load fact rental EZ 
P +H D.D XOJA FJ 10% ~ 


EAA FAA 2 字段 选择 过 涉 记 录 

Sza 
(<. (wP< A N a LP (af 
插入 /更 新 增加 常量 2 。 维度 查询 /更 新 3 =“ 维度 查询 /更 新 2 维度 查询 /更 新 数据 库 查 询 2 


图 8-218 ”运行 转换 load fact rental 
从 图 8-218 中 的 执行 结果 看 ,每 个 控件 的 右上 角 均 有 “VV”, 说 明 转 换 load_fact_rental 
执行 成 功 。 
16. 查看 事实 表 fact_rental 中 的 数据 


通过 SQLyog 工具 ,查看 事实 表 fact_rental 是 否 已 成 功 插入 数据 ,查看 结果 如 图 8-219 
所 示 ( 这 里 只 展示 部 分 数据 ) 。 


[O |cust...|s..|film key [st... renta... return_d... rent... co... c..| rental... rental last update ~ 
O| 2527 9 1080 4|20050524| — 20050526 225330| 1| 1| 169860|2006-02-15 21:30:53 
I 加 zase 9 1333 S 20050524 20050528| 225433| — 1 ı| 333960 2006-02-15 21:30:53 
O| zaos 9 1373 5|20050524|  20050601| 230339| — 1 ı| 688140|2006-02-15 21:30:57 
M| 2730|) 10| asss al2o0sos2a| — 20050603_ 230441| 1| 1| 787140|2006-02-15 2 Ë 
O| 2619 9 1450 5|20050524| 。 20050602| 230521| 1 a| 710880 2006-02-15 21:30:53| 
O| 2s46 9 1613 4l20050524| 20050527| 230807| 1 1| 181440|2006-02-15 21:30:53 
O| 2666| 10 1870 5|20050524| — 20050529 231153 1| 1| 422580|2006-02-15 21:30:54 
O| 2636, 10 1510 4120050524|  20050527| 233146| 1| 1| 259320 2006-02-15 21:30:53 
D zsz3| 9| 1565 4|20050525| 。 20050528 40 1| a| 260520|2006-02-15 21:30:53 
1 


A 8-219 事实 表 fact_rental 


从 图 8-219 中 可 以 看 出 ,事实 表 fact_rental 中 已 插入 数据 ,说 明 我 们 成 功 实现 了 加 载 租 
赁 数据 至 租赁 事实 表 fact_rental 中 。 


8.3.10 加 载 数 据 库 sakila 中 的 数据 至 数据 仓库 sakila_dw 


下 面 通过 Kettle 工具 将 前 面 创建 的 转换 整合 成 一 个 整体 ,定时 加 载 sakila 中 的 数据 至 
数据 仓库 sakila_dw 中 .具体 实现 步骤 如 下 。 


1. 打开 Kettle 工具 ,创建 作业 
使 用 Kettle 工具 创建 作业 load_rentals ,并 添加 Start 控件 “转换 ?控件 “发 送 邮件 ? 控 


386. 数据 清洗 
件 “ 中 止 作业 ”控件 以 及 Hop 作业 项 连接 线 , 具 体 效果 如 图 8-220 所 示 。 


8-220 ”创建 作业 load rentals 


2. 配置 “转换 ”控件 
双击 图 8-220 中 的 “转换 ”控件 ,进入 “转换 ”界面 , 单 击 Transformation 后 的 “浏览 ? 按 


钮 ,选择 添加 转换 load_dim_staff, 具 体 如 图 8-221 所 示 。 


作业 项 名 称 : 
转换 AR 


Transformation: 


$(Internal.Entry.Current.Directory)/load_dim_staff.ktr ® ES 


Options ` RERS] Arguments 命名 参数 | 


Run configuration: 


Pentaho local ¿2 ° 


Execution 


EES 


图 8-221 配置 “转换 ”控件 
在 图 8-221 中 单 击 “确定 ”按钮 ,完成 “转换 "控件 的 配置 。 


3. 配置 “转换 2” 控 件 
双击 图 8-220 中 的 “转换 2” 控 件 . 进 入 “转换 ”界面 , 单 击 Transformation 后 的 “浏览 ” 按 


钮 ,选择 添加 转换 load_dim_customer, 具 体 如 图 8-222 所 示 。 
在 图 8-222 中 单 击 “ 确 定 ” 按 钮 ,完成 “转换 2” 控 件 的 配置 。 
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S${Internal.Entry.Current.Directory}/load_dim_customer.ktr @ [es] 


xea = 
作业 项 名 称 : Sv 
转 痪 2 AR 
Transformation: 


Options 、、 设 置 日志 | Arguments) 命名 参数 | 


Run configuration: 
Pearoeal Fjo 
Execution 
回执 行 每 一 个 给 入 行 ? 
E 在 执行 前 清除 结果 行列 表 ? 
回 在 执行 前 清除 结果 文件 列表 ? 


(Onee) 


A 8-22 配置 “转换 2” 控 件 


4. 配置 “转换 3” 控 件 


双击 图 8-220 中 的 “转换 3” 控 件 , 进 入 “转换 ”界面 , 单 击 Transformation 后 的 “浏览 ” 按 


钮 ,选择 添加 转换 load_dim_store, 具 体 如 图 8-223 所 示 。 


$(Internal.Entry.Current.Directory)/load_dim_store.ktr ° 


x =l@| x 
作业 项 名称: yr 
转换 3 AR 
Transformation: 


Options 、、 设 置 日 志 | Arguments 命名 参数 | 


Run configuration: 
Fasea le 
Execution 
执行 每 一 个 给 入行 ? 
E 在 执行 前 清除 结果 行列 表 ? 
回 在 执行 前 清除 结果 文件 列表 ? 


图 8-223 配置 “转换 3” 控 件 


在 图 8-223 中 单 击 “ 确 定 ” 按 钮 ,完成 “转换 3” 控 件 的 配置 。 


388. 数据 清洗 


5. 配置 “转换 4 控件 


双击 图 8-220 中 的 “转换 4” 控 件 , 进 入 “转换 ”界面 , 单 击 Transformation 处 的 “浏览 ” 按 
钮 ,选择 添加 转换 load_dim_actor, 具 体 如 图 8-224 所 示 。 


z 转换 =e = 
PURER SC 
maa 7R 
Transformation: 


StinternalEntry.Current Directoryjyload dim_actorjktr ® [es] 


Options 、 设 置 日 志 | Arguments] 命名 多 数 | 


Run configuration: 
Perahera Tjo 
Execution 
男 执行 每 一 个 给 入 行 ? 
回 在 执行 前 清除 结果 行列 表 ? 
回 三 总行 前 清除 结果 文件 列表 ? 


(Onse) 


A 8-224 配置 “转换 4” 控 件 


在 图 8-224 中 单 击 “ 确 定 ” 按 钮 ,完成 “转换 4 控件 的 配置 。 
6. 配置 “转换 5” 控 件 


双击 图 8-220 中 的 “转换 5” 控 件 , 进 入 “转换 ”界面 , 单 击 Transformation 后 的 “浏览 ” 按 
钮 ,选择 添加 转换 load_dim_film, 具 体 如 图 8-225 所 示 。 


z 转换 m 
作业 项 名 称 : `Ë 
mas AR 
Transformation: 


$S(InternaLEntry.Current.Directory)/load_dim_film.ktr @ [es] 


(Options 、、 设 置 日 志 | Arguments) 命名 参数 | 


Run configuration: 
Execution 
回执 行 每 一 个 绽 入 行 ? 
E 在 执行 前 清除 结果 行列 表 ? 
同 在 执行 前 清 险 结果 文件 列表 ? 


(Orap) [o ] [mo] 


A 8-225 配置 “转换 PEH 
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在 图 8-225 中 单 击 “ 确 定 ” 按 钮 ,完成 “转换 5” 控 件 的 配置 。 

7. 配置 “转换 6” 控 件 

双击 图 8-220 中 的 “转换 6” 控 件 , 进 入 “转换 ”界面 , 单 击 Transformation 处 的 “浏览 ” 按 
钮 ,选择 添加 转换 load_fact_rental, 具 体 如 图 8-226 所 示 。 


x 转换 


lele] = 


作业 项 名 称 : yr 
转换 6 


Transformation: 


S${Internal.Entry.Current.Directory}/load fact rentalktr ® EE 


Options 、、 设 置 日 志 | Arguments | 命名 参数 | 


Run configuration: 
Pentaho local su °. 


Execution 


回 执行 每 一 个 给 入 行 ? 
E 在 执行 前 清除 结果 行列 表 ? 
回 在 执行 前 清除 结果 文件 列表 ? 


(Onee) 


[aso ][ wo] 


图 8-226 配置 “转换 6” 控 件 
在 图 8-226 中 单 击 “ 确 定 ” 按 钮 ,完成 “转换 6” 控 件 的 配置 。 
8. 配置 “发 送 邮件 "控件 
双击 图 8-220 中 的 “发 送 邮 件 ? 控 件 , 进 入 “发 送 邮 件 ? 界 面 , 在 “地 址 ?选项 卡 中 添加 收 件 
人 和 发 件 人 的 信息 ,如 图 8-227 所 示 ; 在 “服务 器 "选项 卡 中 添加 邮件 服务 器 和 验证 的 信息 ， 
= 发 送 邮 件 elel = J) 


邮件 作业 名 称 : 发 送 部 件 
地址 \\\、 服 务 器 | 邮件 消息 | 附件 | 
收 件 人 
收 件 人 地 址 : 1145115180@qq.com ° 
抄 送 : ° 
La ° 
发 件 人 
回复 名 称 黑马 程序 员 ° 
发 件 人 地 址 :wenyan@itcast.cn ° 
[Oner] ma.) 


E 8-227 添加 收 件 人 和 发 件 人 


90, 数据 清洗 


如 图 8-228 所 示 ; 在 “邮件 消息 ”选项 卡 中 添加 消息 内 容 ,如 图 8-229 所 示 。 这 里 使 用 “发 送 
邮件 ”控件 ,主要 用 于 接收 作业 运行 成 功 的 提醒 。 


口 发 详 邮 件 le x] 
邮件 作业 名 称 :发送 闻 件 
ieit ESR \\、 邮 件 消息 | 附件 | 
邮件 服务 器 
SMTP 服 务 器 : smtp.263.net ° 
s03: 25 ° 
验证 
° 
° 
@ 
口 awa = 
邮件 作业 名称: 发 送 部 件 
地 址 [服务 器 | 名 件 消息 和、 附件 | 
消息 设置 
信息 里 市 日 期 ? 加 
nass Fl 
使 用 HTML 邮件 格式 ? |F) 
编 |UTF-8 
管理 优先 级 回 
a an = 
重要 =n = 
Sensitivity [Normal ` 
消息 
主题 。 器 成 功 
BE: comt š 
< 6 


图 8-229 添加 消息 内 容 
在 图 8-229 中 单 击 “ 确 定 ” 按 钮 ,完成 “发 送 邮件 ”控件 的 配置 。 
9. 配置 “发 送 邮 件 2” 控 件 


双击 图 8-220 中 的 “发 送 邮 件 2” 控 件 , 进 入 “发 送 邮 件 ” 界 面 , 在 “地 址 ”选项 卡 中 添加 收 
件 人 和 发 件 人 的 信息 ,如 图 8-230 所 示 ; 在 “服务 器 ”选项 卡 中 添加 邮件 服务 器 和 验证 的 信 
息 ,如 图 8-231 所 示 ; 在 “邮件 消息 ”选项 卡 中 添加 消息 内 容 , 如 图 8-232 所 示 。“ 发 送 邮 件 2” 
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控件 主要 用 于 接收 作业 运行 错误 的 提醒 信息 。 


口 #ixaset = E3 
邮件 作业 名 称 : 发 送 部件 2 
ENE S. R2588| 邮件 消息 | 附件 | 
收 件 人 
收 件 人 地 址 。 wenyan@itcastcn ° 
抄 送 : ° 
mms: ° 
发 件 人 
回复 名 称 传 智 播客 ° 
发 件 人 地 址 : 1145115180@qq.com ° 
A [aa -| 
图 8-230 添加 收 件 人 和 发 件 人 
o ta 己 = 
邮件 作业 名 称 :发送 闻 件 2 
地 址 [服务 器、 邮件 消息 | 附件 | 
邮件 服务 器 
SMTP 服 务 器 : smtp.263.net ° 
#05: 25 ° 
验证 
用 户 验证 ? 
用 户 名 ，wenyan@itcastcn ° 
EE: eseesss.... ° 


图 8-231 添加 邮件 服务 器 和 验证 信息 


在 图 8-232 中 单 击 “ 确 定 ” 按 钮 ,完成 “发 送 邮 件 2 控件 的 配置 。 
10. 运行 作业 load_rentals 


单 击 作业 工作 


区 项 部 的 器 | 按钮 ,运行 创建 的 作业 load_ rentals ,实现 加 载 数据 库 sakila 


中 的 数据 至 数据 仓库 sakila_dw 中 ,具体 如 图 8-233 所 示 。 
从 图 8-233 中 的 执行 结果 看 ,每 个 控件 的 右上 角 均 有 “MV”, 说 明 作业 load_rentals 执行 


成 功 。 


11. 查看 数据 仓库 sakila_dw 中 维度 表 的 数据 


通过 SQLyog 工具 ,查看 数据 仓库 sakila_dw 中 的 维度 表 和 事实 表 是 否 已 成 功 插入 数 
据 , 查 看 结果 如 图 8-234 一 图 8-241 所 示 。 


391 


92 数据 清洗 


o ata = 
邮件 作业 名 称 : 发 送 闻 件 2 
地 址 [服务 器 (8609555. 附件 | 
消息 设置 
信息 里 日期 ? m 
RASERER P 
使 用 HTML 邮件 格式 ? 回 
编 3 |UTF-8 - 
管理 优先 级 加 
优先 级 sm < 
z= [aa = 
Sensitivity [Normal ` 
消息 
主要 maxw ° 
注释 查看 失败 日 志 a 
. , ° 


图 8-232 添加 消息 内 容 


[C 2 load remals £3 
PD P FJ EA o% ~ 


2006-02-15 04:34:33 


2 
403|2006-02-15 04:34:33 (CHASE ED 3 
404|2006-02-15 04:34:33 |DAVIS (JENNIFER 4 
405 2006-02-15 04:34:33 |LOLLOBRIGIDA JOHNNY 5 
406|2006-02-15 04:34:33 [NICHOLSON BETTE 6 
407|2006-02-15 04:34:33 MOSTEL (GRACE 7 
408 2006-02-15 04:34:33 |JOHANSSON MATTHEW 8 
409|2006-02-15 04:34:33 SWANK JE 9 
410/2006-02-15 04:34:33 0 


8-234 维度 表 dim_actor 中 的 数据 


从 上 述 图 中 可 以 看 出 ,数据 仓库 sakila_dw 中 的 维度 表 和 事实 表 均 插入 了 数据 ,说 明 我 
们 通过 Kettle 工具 实现 了 将 数据 库 sakila 中 的 数据 加 载 到 数据 仓库 sakila_dw 中 。 


第 8 章 综合 案例 一 构建 DVD 租赁 商店 数据 仓库 


4792|2006-02-15 04:57:20 

4793|2006-02-15 04:57:20 S99 AUSTIN [CINTRON IAUSTIN.CINTR Yes 
4790|2006-02-15 04:57:20 S96 ENRIQUE FORSYTHE ENRIQUE. FORS Yes 
4789|2006-02-15 04:57:20 595 TERRENCE |GUNDERSON (TERRENCE. GUN Yes 
4786|2006-02-15 04:57:20 592 TERRANCE ROUSH TERRANCE .ROU No 
4787|2006-02-15 04:57:20 593 RENE MCALISTER RENE .MCALIST Yes 
4788|2006-02-15 04:57:20 594 EDUARDO (HIATT EDUARDO. HIAT Yes 
4785|2006-02-15 04:57:20 


20091227 2009-12-27 12/27/09 Sunday, December 27, 20( 
20091226|2009-12-26|12/26/09 Dec 26, 2009 December 26, 2009 Saturday, December 26, i 
20091225 2009-12-25 12/25/09 |Dec 25, 2009 December 25, 2009 Friday, December 25, 20( 
20091224 2009-12-24 12/24/09 Dec 24, 2009 December 24, 2009 Thursday, December 24, ; 
20091223 2009-12-23 12/23/09 Dec 23, 2009 December 23, 2009 Wednesday, December 23, 
20091222 2009-12-22 12/22/09 Dec 22, 2009 December 22, 2009 Tuesday, December 22, 2( 
20091221 2009-12-21 12/21/09 Dec 21, 2009 December 21, 2009 Monday, December 21, 20( 
20091220 2009-12-20 [12/20/09 Sunday, December 20, 20( 


1 


2906|2006-02-15 
2905|2006-02-15 
2904/2006-02-15 
2903|2006-02-15 
2902|2006-02-1S 
2901|2006-02-15 
2900|2006-02-15 
2899 2006-02-15 


[TRAMP OTHERS 
[TRAINSPOTTING STI 
TRAIN BUNCH 
[TRAFFIC HOBBIT 
[TRADING PINOCCHII 
[TRACY CIDER 

TOWN ARK 

TOWERS HURRICANE 


图 8-237 维度 表 dim_film 中 的 数据 


2006 English Not À 
2006 English Not A 
2006 English Not À 
2006 English Not À 
2006 English Not A 
2006|English Not A 
2006 English Not A 
2006 Eng1ish Not À v) 


1970-01-01 00:00 | (NULL) (NULL) 
1970-01-01 00:00 [Hillyer 1900-01- 
1970-01-01 00:00| (NULL) (NULL) 
1970-01-01 00:00 (NULL) (NULL) ~| 


图 8-239 维度 表 dim_staff 中 的 数据 


g 


数据 清洗 


[cime key |rime value — |hours24 C[nours12 [minutes |seconds | A 
[oo:00:00 O o œo oœ 国 
1/00:00:01 0 0 0 1AM 


| 2 00:00:02 | 0 o| 0 2 


E E 
1 


300:00:03 0 0 0 3 


图 8-240 ”维度 表 dim_time 中 的 数据 


20050529 20050602| 210032 324900|2006-02-15 
|20050529 20050607| 210722 702900 2006-02-15 
20050529 20050604| 213112 523080/2006-02-15 ~ 


图 8-241 事实 表 fact_rental 中 的 数据 


8.4 本 章 小 结 


本 章 主要 讲解 了 构建 DVD 租赁 商店 数据 仓库 ,并 将 数据 库 sakila 中 的 数据 加 载 至 数据 
仓库 sakila_dw 中 的 相关 知识 ,包括 案例 概述 .数据 准备 以 及 案例 实现 。 和 希望 读者 通过 本 章 
的 学 习 , 可 以 掌握 构建 数据 仓库 以 及 将 数据 库 中 的 数据 进行 相关 的 清洗 操作 ,最 终 加 载 至 数 
据 仓 库 中 ,便于 后 续 在 线 DVD 租赁 商店 的 决策 者 对 数据 进行 分 析 得 出 商业 决策 。 


